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万 木 杨 wanmuyang 

网 名 木 今 清 扬 ， 在 华为 公司 服务 近 6 年 ， 曾 任 软件 工程 师 、 算 法 工 
程 师 、 系 统 工程 师 ， 擅 长 多 媒体 算法 设计 和 编写 高 效 代码 。 

作者 自 2004 年 起 开始 研究 多 媒体 算法 ， 从 语音 识别 ， 到 人 脸 动 画 ， 
再 到 视频 编 解 码 ， 足 迹 遍布 语音 、 图 像 、 视 频 和 3D。 自 2006 年 在 DSP 上 
编写 程序 ， 从 此 开始 深入 研究 处 理 器 内 部 结构 ， 后 来 接触 过 大 量 的 半 导 
体 公 司 和 处 理 器 芯片 ， 对 处 理 器 技术 和 产品 有 着 深刻 的 理解 。 

闲暇 之 余 ， 作 者 喜爱 读书 ， 多 年 来 保持 平均 两 周一 本 的 速度 。 








内 容 简介 

处 理 器 是 IT、 通 信 、 电 子 产 业 的 基石 ， 没 有 处 理 器 ， 信 息 产 业 大 厦 
就 如 同 建立 在 沙滩 上 。 本 书 是 一 本 图 文 并 成 、 生 动 幽 默 的 处 理 器 科普 读 
物 ， 全 书 行文 风趣 幽默 ， 用 类 比 来 解释 星 深 的 技术 ， 用 图 画 来 代 蔡 顶 焊 
的 文字 。 本 着 科技 以 人 为 本 的 理念 ， 本 书 除了 技术 外 ， 还 介绍 了 大 量 人 
物 和 公司 的 故事 ， 供 大 家 闲 读 。 

第 1 章 漫游 计算 机 世界 ， 介 绍 了 计算 机 的 前 世 今 生 ， 以 及 计算 机 的 
五 脏 六 腑 、 七 经 八 脉 。 第 2 章 到 第 5 章 从 外 到 内 ， 介 绍 了 处 理 器 的 外 表 和 
内 心 结构 ， 处 理 器 的 核心 技术 尽 在 于 此 。 第 6 章 同 软件 人 员 介 绍 了 怎样 
编写 高 效 代 码 ， 处 理 器 的 客户 就 是 程序 员 ， 程 序 员 在 处 理 器 上 开发 程 
序 ， 对 人 处理 器 了 解 得 越 深 编写 出 来 的 代码 执行 效率 就 越 高 。 第 7 章 介 
绍 了 大 量 的 处 理 器 下 公司 ， 现 在 的 人 们 攒 电脑 ， 以 后 的 人 们 说 不 定 就 能 
攒 处 理 器 了 。 第 8 章 走 进 处 理 器 的 内 * 芯 ” 世 界 ， 介 绍 处 理 器 芯片 是 怎么 
设计 与 制造 出 来 的 。 

本 书 在 通信 人 家 园 论 坛 上 连载 了 一 部 分 ， 得 到 了 广泛 的 好 评 ， 帖 子 
迅速 被 置顶 、 加 精 、 进 入 论坛 首页 ， 也 在 公司 内 部 被 大 量 传播 。 

本 书 的 主要 读者 是 IT、 通 信 、 电 子 、 半 导体 行业 的 从 业 人 员 ， 以 及 
大 专 院 校 的 学 生 。 喜 欢 技术 的 看 技术 ， 不 喜欢 技术 的 看 故事 。 

本 书 封面 贴 有 清华 大 学 出 版 社 防伪 标签 ， 无 标签 者 不 得 销售 。 
版 权 所 有 ， 侵 权 必 究 。 侵 权 举 报 电话 : 010-62782989 13701121933 
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序 一 ”寻宝 处 理 器 的 引人入胜 之 旅 


当 出 版 社 的 编辑 介绍 万 木 杨 的 这 本 书 给 我 时 ， 我 对 书 名 《大 话 处 理 
妖 》 是 有 一 定 担 心 的 ， 其 一 : 处 理 器 和 计算 机 的 发 展 几 十 年 来 风 起 云 
涌 ， 其 间 有 天 才 的 创新 、 看 似 偶然 的 分 又 和 园 于 商业 市 场 考量 的 成 功 与 
失败 ， 一 部 技术 发 展 史 绝 不 比 波 诵 云 诡 的 社会 史 逊 色 。 一 部 “大 话 ” 处 理 
器 的 书 会 不 会 流 于 一 部 围绕 处 理 器 发 展 种 种 轶 事 的 大 话 撤 术 史 ? 读书 时 











器 的 体系 结构 有 更 清晰 的 认识 ? 其 二 : 处 理 器 的 发 展 是 和 软件 、 操 作 系 
统 的 发 展 互 为 作用 的 ， 其 中 很 多 技术 点 和 概念 都 值得 深入 讨论 。 采 

用 “大 话 ” 的 方式 能 人 否 既 保证 技术 书籍 向 述 的 准确 性 ， 叉 不 至 于 陷入 对 汞 
些 概念 劳 征 博 引 的 “Rat hole” 式 的 罗列 ， 而 变 得 像 很 多 交 贴 式 编著 的 末 书 
籍 一 样 ? 

但 其 后 数 次 断 续 读 稿 时 沉浸 其 中 的 体验 打消 了 我 的 顾虑 。 我 几 次 阅 
读书 稿 都 是 在 出 差 途中 (如 飞机 上 〉， 一 个 很 深 的 体验 是 一 旦 开始 阅读 
就 不 愿 终止 ， 一 直 读 到 不 得 不 将 书稿 收 起 走路 为 止 。 另 一 个 体验 是 ， 从 
任何 一 个 间断 点 ， 都 可 以 把 本 书 当 作 入 口 ， 去 找寻 别 的 书籍 进一步 深入 
学 习 其 中 的 一 些 关 键 技术 ， 就 好 像 函 数 调用 一 般 ， 这 和 是 我 所 期 望 的 带领 
读者 进入 处 理 器 世界 的 导游 书籍 ， 因 此 非常 愿意 向 广大 的 读者 推荐 这 本 
和 

在 技术 书籍 的 阅读 中 ， 我 俩 爱 爱 因 斯 坦 阐释 的 方法 一 一 “在 所 阅读 
的 书 中 ， 找 出 可 以 把 自己 引 同 深入 的 东西 ， 把 其 他 的 一 切 统统 抛 
掉 。” 这 就 是 抛 挥 使 大 脑 负担 过 重 和 把 自己 诱 离 要 点 的 一 切 。 

万 木 杨 的 这 本 书 ， 在 选材 上 围绕 处 理 需 的 核心 技术 ， 从 计算 机 发 展 
的 形态 、 历 史 展 开 叙 述 ， 在 简略 介绍 了 处 理 器 的 周边 设备 后 ， 迅 速 深入 
处 理 器 的 抽象 模型 ， 以 计算 机 软件 生态 系统 中 最 重要 的 指令 集体 系 结构 











ISA 切 入 到 探索 处 理 器 的 微 架 构 ， 对 处 理 占 微 架 构 的 一 些 核 心 技 术 ， 如 
流水 线 、 乱 序 执行 、 指 令 级 并 行 、 线 程 级 并 行 、 绥 存 结构 和 算法 、 绥 存 
一 致 性 等 概念 ， 言 简 意 赔 地 做 了 原理 曾 释 。 而 了 解 这 些 核心 概念 ， 是 理 
解 其 后 第 六 章 优 化 代码 效率 的 基础 。 鳃 以 为 这 些 章节 是 本 书 

的 “hardcore”， 很 值得 一 读 。 

在 本 书 的 写作 风格 上 ， 作 者 运用 了 很 多 办 新 的 网 络 元 素 和 人 鲜 活 的 比 
拟 来 厘清 概念 ， 比 如 用 《我 的 兄弟 叫 顺 溜 》 中 的 顺 溜 装配 子弹 的 例子 来 
开展 指令 流水 线 的 讨论 ， 既 不 流 于 表面 、 为 举例 而 举例 ， 又 一 以 叶 之 地 
将 每 个 案例 充分 展开 、 把 问题 说 透 ， 这 样 的 例子 在 本 书 中 比比 皆 是 ， 也 
是 我 推荐 该 书 的 原因 之 一 。 这 体现 了 “ 抛 掉 使 大 脑 负担 过 重 ” 的 原则 ， 以 
及 作者 对 所 叙述 的 技术 的 深度 把 握 。 没 有 这 种 把 握 ， 是 很 难 用 好 这 种 比 
拟 的， 反而 容易 变 成 “< 画 虎 不 成 有 反 类 犬 ”。 

由 于 长 期 从 事 性 能 优化 工作 ， 此 前 也 出 版 了 一 本 针对 并 行 优 化 指南 
的 书 ， 因 此 对 本 书 中 冰 述 并 行 处 理 和 编写 高 效 代码 的 章节 仍 觉 意 犹 未 
尽 ， 这 让 我 想起 了 两 件 事 : 

其 一 ， 我 在 2001 年 左右 从 事 针对 多 核 DSP 的 手写 汇编 代码 优化 工 
作 ， 束 是 本 书 里 所 总 结 的 VLIW 并 行 实 现 机 制 ， 当 时 一 个 很 深 的 感触 
是 ， 人 类 大 脑 的 并 行 度 很 低 ， 至 少 在 汇编 这 个 层级 ， 能 够 持续 对 多 个 计 
算 单 元 实现 高 效 并 行 处 理 编程 的 上 限 八 人 就 是 四 级 并 行 了 ， 人 的 大 脑 有 
所 谓 “ 一 心 不 可 二 用 ”的 限制 ， 因 此 ， 此 后 在 IA 平 台 上 ， 多 核 、 多 进程 一 
直到 大 规模 集群 的 并 行 开发 的 方向 就 很 清楚 了 ， 束 是 必须 依赖 高 级 语言 
的 开发 工具 ， 文 持 并 行 实现 的 编译 器 、 数 学 库 和 线程 ，MPI 进 程 奶 踩 工 
上 共和 类 似 Vtune 这 样 的 指令 微 架 构 行 为 的 示波器 ， 来 解放 人 的 大 脑 。 另 
一 方面 就 是 开发 新 的 并 行 编程 模型 和 语言 ， 进 一 步 释放 多 核 处 理 器 的 性 
能 。 

其 二 ， 在 一 本 论述 并 行 超级 计算 机 体系 架构 的 英文 专著 上 ， 我 曾 读 
到 一 段 话 ， 似 可 借 来 总 结 处 理 喜 性 能 发 展 的 方向 。 即 ， 要 做 快 、 做 好 一 
件 事 ， 基 本 上 有 三 种 方法 。 一 是 把 事情 本 身 缩短 、 少 做 事 ， 这 束 是 处 理 























器 流水 线 效 率 、 分 文 预 测 命中 率 等 等 技术 的 发 展 ， 体 现在 软件 上 就 是 更 
好 的 算法 和 更 短 的 代码 关键 路 径 。 二 是 做 得 更 快 、 更 勤 些 ， 这 就 是 处 理 
器 上 更 多 的 浮 点 计算 单元 、 更 高 效 的 缓存 、 新 的 高 效 指令 集 直到 AVX 这 
样 的 高 密度 同 量 计算 指令 。 三 是 让 别人 去 做 或 者 和 别人 一 起 做 ， 这 就 是 
并 行 ， 多 线程 和 多 进程 的 并 行 工 作 。 处 理 器 的 发 展 ， 从 性 能 上 看 ， 基 本 
上 也 可 以 归 为 上 述 三 点 ， 比 照 本 书 的 结构 ， 读 者 也 可 以 做 个 归纳 。 

未 来 的 发 展 ， 我 们 看 到 了 SOC 的 兴起 ， 我 们 看 到 CPU 和 GPU 的 混合 
计算 ,我们 也 看 到 英特尔 即将 推出 的 、 针 对 大 规模 并 行 应 用 、 和 集成 众 核 
架构 的 协 处 理 模 式 的 处 理 器 。 正 如 丘吉尔 所 言 ,，“ 你 能 看 见 多 久 的 过 
去 ， 束 能 看 见 多 远 的 未 来 "。 回 顾 本 书 中 提 到 的 那些 引人入胜 的 处 理 器 
技术 的 来 龙 去 脉 ， 背 后 的 技术 原因 或 是 市 场 竞 争 要 素 ， 奇 妙 之 处 在 于 ， 
处 理 器 的 技术 史 是 我 们 创造 出 来 的 ， 而 身 处 其 中 之 人 却 难以 知晓 ， 那 就 
让 我 们 “把 其 他 的 一 切 统统 抛 掉 ?， 一 起 踏 上 本 书 寻 宝 处 理 器 的 引人入胜 
之 旅 ! 是 为 序 。 























何 万 育 ”博士 
英特尔 数据 中 心 产品 部 “高 性 能 计算 / 工作 站 架构 师 


订 二 


发 明 第 一 台 计 算 机 的 科学 家 们 在 发 明 当 初 应 该 不 会 想到 ， 目 前 计算 
机 的 使 用 就 像 水 银 一 样 无 孔 不 入 地 渗透 到 人 类 社会 的 各 个 方面 ， 并 且 随 
着 电子 、 光 电子 、 材 料 、 人 信息、 网络 技术 的 不 断 朝 前 发 展 ， 会 进一步 对 
人 类 产生 巨大 影响 ， 人 类 将 越 来 越 依赖 计算 机 技术 。 

目前 许多 电子 产品 并 没有 明显 的 计算 机 三 个 字 出 现在 其 产品 说 明 书 
上 ， 但 实际 上 ， 几 乎 所 有 智能 或 部 分 非 智 能 的 电子 产品 都 有 一 个 心脏 
CPU 核 (计算 处 理 单元 ) 在 那里 跳动 。 这 个 心脏 的 计算 能 力 ， 根 据 
产品 的 需求 ， 它 可 以 超级 强大 到 一 秒 钟 完成 50 亿 次 运算 ; 其 大 小 根据 产 
品 需求 ， 也 可 以 小 到 只 有 几 十 个 微米 以 下 ， 同 时 还 具有 很 强 的 计算 能 
力 ， 从 而 使 得 这 个 心脏 的 功 耗 可 以 很 小 。 在 这 个 心脏 周围 配 上 相关 的 硬 
件 、 软 件 融 成 为 一 个 智能 的 电子 产品 。 

对 大 多 数 人 来 讲 ， 计 算 机 是 一 个 谜 一 般 的 东西 。 但 由 于 是 人 类 发 明 
了 了 计算机， 是 人 类 在 使 用 计算 机 ， 而 且 计 算 机 已 经 成 为 人 类 社会 不 可 缺 
少 的 重要 组 成 部 分 ， 因 此 使 用 计算 机 的 人 应 该 或 多 或 少 对 计算 机 有 所 了 
解 。 但 如 何 获 得 这 方面 的 知识 呢 ? 随便 到 书店 或 网 上 去 搜索 ， 给 出 的 都 
是 专业 的 解释 。 由 于 计算 机 产品 是 一 个 系统 ， 涉 及 到 与 计算 技术 有 关 的 
方方面面 ， 因 此 要 全 面 、 完 整 、 很 容易 地 了 解 系统 的 知识 ， 对 非 从 事 这 
行 的 普通 人 来 讲 确实 很 困难 。 

万 木 杨 让 我 给 他 的 新 书写 一 个 厅 ， 我 看 完 《 大 话 处 理 器 》， 和 觉得 这 
本 书 的 主要 对 象 就 是 为 了 这 些 想 了 解 这 个 谜 的 读者 。 万 木 杨 在 计算 机 、 
通信 和 领域 工作 多 年 ， 在 这 方面 积累 了 很 强 的 专业 知识 ， 而 且 博 学 多 才 ， 
文采 出 众 。 在 介绍 计算 机 及 其 相关 知识 时 ， 他 用 了 很 多 与 人 们 日 常生 活 
相关 的 事物 来 进行 对 比 ， 一 步 一 步 地 帮助 读者 深入 。 

本 书 不 仅仅 是 对 计算 机 的 核心 技术 一 一 CPU 进行 了 介绍 ， 而 且 涉 















































与 CPU 相关 的 多 个 方面 ， 包 括 硬件 、 软 件 等 等 ， 对 一 般 从 事 电子 产品 设 
计 的 专业 人 士 来 讲 ， 也 是 一 本 非常 有 用 的 参考 书 。 相 信 这 本 书 不 仪 能 给 
广大 读者 带 来 计算 机 方面 的 基础 知识 ， 而 且 能 帮助 大 家 用 好 计算 机 以 及 
越 来 越 多 的 知 能 产品 。 








周 峰 

原 浙江 大 学 信息 与 电子 工程 系 副 主任 、 博 导 
原 Aitech 公 司 工程 部 主管 

原 VIMICRO 公 司 系 统 工程 部 资深 总 监 
华为 美 研 所 专家 





序 三 ”处 理 融 一 半导体 黄蜂 ， 纵 
模 四 十 年 


处 理 器 ， 这 个 半导体 科技 的 最 前 党， 在 过 去 40 年 的 信息 化 浪潮 中 充 
当 了 发 动机 的 核心 角色 。 它 是 如 此 高 贵 、 而 又 如 此 普及 ， 各 国政 府 争 相 
投资 ， 普 通 家 庭 却 人 人 拥有 ; 它 是 如 此 流行 、 而 又 如 此 神秘 ， 不 只 工程 
师 们 在 苦 苦 探索 、 寻 微 知 著 ， 就 连 业 余 的 发 烧 友 们 也 都 对 它 津 津 乐 道 、 
魂 罕 梦 绕 。 

木 杨 兄弟 是 一 位 热情 而 又 执着 的 DSP 领 域 工程 师 ， 多 年 的 工作 ， 让 
他 在 DSP 领 域 敬 轻 就 熟 。 在 他 自由 得 翔 后 ， 不 肯 专 美 ， 利 用 自己 的 专业 
背景 和 业余 时 间 ， 试 图 把 复杂 、 专 业 的 处 理 器 技术 通俗 化 ， 与 大 家 分 
享 ， 正 所 谓 “ 独 乐 乐 不 如 众 乐 乐 ”， 真 有 侠客 之 风 也 。 

本 书 的 主人 和 翁 一 处理 器 ， 自 发 明之 初 至 今 已 有 40 多 年 的 历史 了 ， 
相 比 浩瀚 的 宇宙 ， 它 是 何其 短暂 ， 却 又 是 如 此 的 丰富 多 彩 ， 可 以 说 ， 处 
理 器 的 发 展 ， 印 证 着 人 类 信息 社会 飞速 发 展 的 轨迹 。 

第 一 次 作 序 ， 诚 悍 诚 丸 ， 只 盼 能 够 给 读者 一 个 兴趣 嚼 然 的 开始 ， 其 
他 无 须 赣 言 ， 就 此 打住 ， 仅 以 华为 公司 2010 年 处 理 器 技术 大 会 闭幕 时 的 
一 首 小 诗 开 始 ， 引 导读 者 进入 探寻 处 理 器 神秘 硅 片 奥秘 之 旅 。 

华为 2010 年 处 理 器 技术 大 会 闭幕 词 : 

处 理 器 生态 圈 40 年 ， 沧 桑 沿 革 ， 英 雄 如 过 江 之 鲫 ， 童 趾 未 必 不 珠 
矶 ， 泰 斗 亦 只 能 为 一 家 之 言 。 然 ， 盛 况 者 唯 在 于 开放 互 师 ， 集 摸 象 之 
和 ， 共 探 未 知 ! 

附 拙 文 以 记 : 

沙 中 求 世 界 ， 轩 坤 即 微 丸 ; 

格物 无 穷尽 ， 妙 理 不 待 言 。 

今 开 三 尺 坛 ， 八 仙 瓷 意 











四 十 年 沧桑 ， 尽 赋 谈 突 间 ! 
茶 绪 鹏 
华为 处 理 器 行业 管理 协会 会 长 
公司 硬件 技术 开发 部 部 长 


正如 广告 语 说 的 那样 : 处 理 器 无 处 不 在 (Microprocessors are 
everywhere) 。 每 一 个 成 功 的 男人 背后 都 有 一 个 成 功 的 女人 ， 每 一 个 成 
功 的 电子 产品 里 面 人 至 少 有 一 个 成 功 的 处 理 器 。 不 管 是 我 们 经 常 使 用 的 计 
算 机 、 手 机 、 汽 车 ， 还 是 为 我 们 服务 但 我 们 不 知道 它们 在 哪儿 的 基站 、 
服务 器 、 交 换 机 每 ， 英 不 如 此 。 我 们 号 处 的 电子 世界 ， 是 建立 在 处 理 器 
基础 之 上 的 。 前 科技 部 部 长 徐冠华 曾经 发 出 这 样 的 感叹 :“ 没 有 自己 的 
CPU 心 片 ， 我 们 的 信息 产业 大 厦 就 如 同 建立 在 沙滩 上 。” 正 因 如 此 ， 龙 
必 、 汉 心 等 忆 的 一 点 点 风吹草动 ， 总 能 牵动 大 家 的 心 。 

服务 器 的 处 理 器 被 Intel 和 IBM 把 特首，PC 机 的 处 理 器 被 Intel 和 AMD 
把 持 着 ， 手 机 、 平 板 电脑 上 的 处 理 咒 则 是 百 家 人 争鸣， 不仅 有 传统 的 高 
通 、 博 通 、TI、Freescale 等 公司 ， 三 星 、 苹 果 、nVidia 等 公司 也 加 入 了 
战 团 。 男 外 ， 新 的 处 理 器 公司 也 依靠 自己 在 某 一 方面 的 独特 技术 优势 而 
备 受 追 摊 ， 如 擅长 多 核 的 Tilera、 接 长 可 配置 处 理 器 的 Tensilica 等 。 

做 处 理 器 很 难 吗 ? 难 ， 也 可 说 不 难 。 说 它 难 ， 是 因为 从 头 设 计 一 亚 
处 理 器 确实 很 难 ， 说 它 不 难 ， 是 因为 现在 可 以 买 到 一 大 堆 的 处 理 器 IP 
核 ， 如 ARM 核 、MIPS 核 、PowerPC 核 、Xtensa 核 等 ， 网 上 还 有 开源 的 处 
理 器 核 ， 用 这 些 处 理 器 IP 核 再 搭配 一 些 外 围 的 东西 ， 就 可 以 设计 出 一 球 
处 理 器 ， 交 由 芯片 代 工 三 生产 ， 就 得 到 了 一 条 处 理 器 世 片 。 这 个 行业 是 
越 来 越 开 放 ， 越 来 越 “ 混 乱 ”， 也 越 来 越 有 意思 。 


本 书 内 容 


本 书 是 一 本 图 文 并 成 、 生 动 幽 默 的 处 理 圳 科普 读物 ， 全 书 行 文风 趣 
幽默 ， 用 类 比 来 解释 蜀 汲 的 技术 ， 用 图 男 来 代 丛 枯燥 的 文字 。 本 着 科 技 
以 人 为 本 的 理念 ， 本 书 除了 技术 外 ， 还 介绍 了 大 量 人 物 和 公司 的 故事 ， 


























供 大 家 闲 读 。 本 书 站 在 一 个 软件 工程 师 的 角度 来 描述 处 理 器 ， 书 中 没有 
化 篇 幅 谈论 处 理 器 的 外 设 、 接 口 、 中 断 等 内 容 ， 而 是 更 多 地 探讨 影响 处 
理 吉 性 能 的 流水 线 、 指 令 并 行 、 数 据 并 行 、 线 程 并 行 、Cache 等 内 容 。 

说 起 处 理 右 ， 目 然 不 能 不 提 计 算 机 ， 第 1 章 漫 游 计算 机 世界 ， 介 绍 
了 计算 机 的 前 世人 今生， 以 及 计算 机 的 五 脏 六 及 、 七 经 八 脉 。 

第 2 一 5 草 从 外 到 内 ， 介 绍 了 处 理 堪 的 外 表 和 内 心 结构 ， 处 理 右 的 核 
心 技术 尽 在 于 此 。 了 解 了 这 几 章 ， 我 们 就 能 知道 一 天 处 理 韦 擅长 做 什么 
事情 ， 不 擅长 做 什么 事情 。 第 6 章 癌 软件 人 员 介 绍 了 怎样 编写 高 效 代 
码 ， 处 理 器 的 客户 就 是 程序 员 ， 程 序 员 在 处 理 器 上 开发 程序 ， 对 处 理 嚣 
了 解 得 越 深 ， 编 写 出 来 的 代码 执行 效率 就 越 高 。 

第 7 章 介 绍 了 一 大 堆 的 处 理 器 了 公司 ， 现 在 的 人 们 斤 电 脑 ， 以 后 的 
人 们 次 不 定 就 能 攒 处 理 硕 了 。 

第 8 章 走 进 处 理 器 的 内 “ 必 ” 世 界 ， 介 绍 处 理 需 已 片 是 怎么 设计 与 制 
造 出 来 的 。 


本 书 特色 


图 多 。 第 言 道 ， 文 不 如 表 ， 表 不 如 图 ， 图 一 来 可 以 节省 笔墨 ， 二 来 
可 以 迅速 回 读 者 强化 作者 的 意思 ， 其 实 汉语 本 里 就 是 象形 字 ， 最 早 也 十 
从 图 演化 而 来 ， 以 图 代 文 也 是 理所当然 。 

语言 生动 、 幽 默 ， 多 用 类 比 。 一 个 东西 ， 这 样 说 不 容易 懂 ， 换 一 种 
说 法 就 容易 懂 了， 很 多 技术 也 来 源 于 生活 ， 搁 术 和 生活 实例 联系 在 一 
起 ， 也 更 能 帮助 读者 理解 、 记 忆 。 

知识 面 厂 、 新 里 。 本 书 介 绍 了 大 量 的 公司 、 人 物 和 故事 ， 也 介绍 了 
计算 机 、 处 理 器 、 软 件 、 忆 片 设计 与 制造 。 


读者 对 象 


本 书 的 读者 对 象 是 对 计算 机 、 处 理 器 感 兴 趣 的 人 员 ， 做 软件 开发 的 
人 人员， 以 及 IT、 通 信 、 电 子 、 半 导体 行业 的 从 业 人 员 和 大 专 院 校 的 学 



































生 。 豆 欢 技术 的 看 技术 ， 不 辟 欢 技术 的 看 故事 。 
致谢 


感谢 漂亮 、 可 爱 的 曹阳 妹妹 为 本 书 作画 ， 国 工 精 江 ， 创 意 一 流 。 感 
谢 英 特 尔 高 性 能 计算 / 工作 站 架构 师 何 万 青 博 士 在 百 忙 之 中 读 完 本 书 ， 
并 熬夜 作 序 ， 导 致 第 二 天 发 遍 烧 ， 在 此 致 上 歉意 。 感 谢 华 为 处 理 吉 行业 
管理 协会 会 长 、 便 件 技 术 开 发 部 部 长 这 绪 鹏 总 结 了 处 理 器 四 十 年 的 发 展 
历程 ， 为 本 书 作 序 ( 注 : 根据 出 版 需要 ， 有 删 减 ， 原 文 参见 作者 博 
客 ) 。 感 谢 原 浙江 大 学 信息 与 电子 工程 系 副 主任 、 博 导 ， 华 为 美国 研究 
所 专家 ， 资 深 硅谷 人 士 周 峰 博士 ， 在 本 书 的 写作 与 出 版 上 ， 提 出 了 诸多 
指导 意见 ， 并 作 序 。 感 谢 清 华 大 学 出 版 社 王 峰 松 老师 为 本 书 的 写作 与 出 
版 列 精 竭 虑 ， 出 谋划 策 。 感 谢 为 我 的 成 长 给 予 过 帮助 的 所 有 人 。 

本 书包 含 大 量 的 图 片 ， 除 了 原创 的 漫画 、 示 意图 外 ， 还 包含 不 少 历 
史 名 人 人 照片、 剧照 、 相 关 产 品 照片 、 互 联网 娱乐 照 厂 等 ， 此 外 ， 本 书 还 
有 少量 图 片 直 接 引 用 或 者 参考 了 现 有 的 学 术 示 意图 ， 这 些 图 片 来 源 于 各 
大 公司 官方 网 站 〈 如 Intel、TI、IBM 等 ) 、 国 外 著名 大 学 、 维 基 百 科 等 
网 站 ， 特 对 这 些 图 片 的 作者 和 所 有 者 表示 感谢 。 

本 书 从 2009 年 7 月 开始 写作 ， 大 约 花 了 两 年 时 间 ， 期 间 做 过 3 次 大 的 
结构 调整 ， 终 于 形成 了 现在 的 结构 。 本 书 接近 写成 之 际 ， 作 者 在 通信 人 
家 园 论 坛 里 连载 了 一 部 分 ， 得 到 了 不 少 好 评 ， 也 迅速 被 置顶 、 加 精 、 进 
入 论坛 首页 。 该 帖 在 华为 公司 内 部 也 被 多 次 转载 、 邮 件 传播 ， 不 少 同 事 
的 相关 培训 PPT 直 接 引 用 作者 在 书 中 所 绘制 的 原 图 ， 相 信 本 书 不 会 让 读 
者 失望 。 

本 书 邀 请 了 不 少 业 内 专家 进行 审查 ， 不 过 也 不 一 定 能 确保 完全 准确 
无 误 ， 读 者 可 以 访问 作者 的 博客 (http://blog.csdn.net/muxiqingyang) 或 
微 博 〈http:/weibo.com/muxiqingyang) 对 本 书 进 行 批评 、 建 议 、 讨 论 ， 
还 可 以 下 载 作者 为 本 书 所 设计 的 PPT， 也 可 以 通过 电子 邮件 
(muxigingyang@qq.com) 和 作者 交流 。 




















万 木 杨 


月 也 


序 一 寻宝 处 理 器 的 | | ) 胜 


三 ”处 理 器 一 -一 半导体 题 峰 ， 纵 横 


a t 入 前 » 今生 、 > 


佛 家 喜欢 谈 三 世 ， 即 前 世 、 今 生 和 来 世 。 我 们 
也 洛 洛 佛祖 的 光 ， 来 谈 谈 计算 机 的 三 世 。 


上 


Tl 下 








不 分 类 ， 就 不 利于 管理 ， 人 类 由 于 具有 归 类 的 
能 力 ， 才 不 会 锌 周围 环境 的 复杂 性 所 压 垮 。 


1.3 PC 机 结构 探秘 


当 我 们 把 计算 机 和 人 做 类 比 时 ， 硬 件 就 相当 于 
人 的 身体 ， 软 件 就 相当 于 人 的 三 吏 七 鲍 。 


13.1 卜 理 抽签 人 心 











1.3.6 ”显卡 一 我 贵 ， 业 
197 短信 接口 二 一 关节 


1.3.8 ee 全 让 
L139 7 产业 发 展 态 势 
第 9 音 » 识 下 于 时 9 己 外 A = a ES 


卜 理 红 由 ] 丰 苗 开 I 





2.1 处 理 器 是 怎样 工作 六 
人 硬件 搭 台 ， 软 件 唱戏 。 


2.1.1 三 连 线 电 路 一定 终 





2.2.2 ISA 横 插 一 
2.3 ”处理 器 的 分 层 模 型 


如 果 用 软件 开发 的 流程 来 和 处 理 器 进行 对 比 ， 
那么 Architecture 就 好 比 需求 ，Microarchitecture 好 比 
SE 
2.4_ 选 什么 样 的 处 理 器 一 一 适合 的 才 是 最 
选 处 理 器 束 像 找 老婆 ， 没 有 好 坏 之 分 ， 只 有 适 
A 























第 3 音 大 ZE 大 上 于 局 < 
3.1 指令 集 是 什么 
3.1.1 从 处 理 器 编程 模型 谈 起 一 一 一 切 从 模型 开始 
3.1.2 计算 机 语言 一 一 人 与 计算 机 沟通 的 桥梁 
7 
3.2.1_CISC 时 代 一 粗放 了 双 
其 实 最 早 并 没有 CISC， 只 是 因为 RISC 出 现 后 ， 
才 有 了 CISC。 这 就 好 比 世 上 本 没有 旧 中 国 ， 只 是 新 
中 国 出 现 了 ， 才 有 了 旧 中 国 。 
3.3” 指令 集 的 五 示人 金 
3.3.3 “MIPS -优雅 的 孔径 
3.3.4 Power 从 日 的 贵族 
3.3.6_ 至今 仍 在 服役 的 元 老 们 
34 地 粮 之 争 





人 不定 你 是 独子 还 是 冷 羊 ， 太 阳 升 起 的 时 候 你 就 
得 开始 跑 了 。 同 样 的 一 幕 在 处 理 咒 行业 也 一 样 发 生 
着 。 


3.4.1 地盘 划 分 
3.4.2 x86、ARM 之 战 








第 4 音 铠 力 0 术 理 总 白人 i 
4.1 跟着 顺 瘤 学 流水 线 
科学 管理 之 父 泰 勒 认 为 : 科学 管理 理念 的 精髓 
和 WE 


4.1.1 顺 六 和 2 级 流水 线 








4.2 单 射击 到 指令 执行 





42.5 分 文 预 测 一 一 以 古 为 镁 ， 可 以 知 兴 寺 





TT (Instruction Level Parallelism) 


世上 没有 无 缘 无 故 的 爱 ， 也 没有 无 缘 无 故 的 
恨 ， 没 有 无 缘 无 故 的 Superscalar， 也 没有 无 缘 无 故 的 


451 已 从 六 4 行 上 六 5% 统 起» 0“ 蚊 营 ” 








4.5.2 Superscalar 处 理 器 实例 Intel P4 CPU 


4.5.3 VLIW 处 理 器 实例 一 一 TI C6000 DSP 
4.5.4_ Superscalar 和 VLIW 总 结 


4.6_ 数据 并 行 (Data Level Parallelism ) 
4.6.1 _ 何 为 SIMD、MMX、SSE 














4.7 
刘 、 关 、 张 三 兄弟 联手 ， 也 只 是 稍微 强 过 吕布 
一 点 点 ， 而 即使 是 强 如 吕布 ， 最 终 还 是 敌 不 过 曹操 
的 千 车 万 马 ， 可 见 一 个 人 的 力量 总 是 有 限 的 ， 人 多 
还 是 力量 大 ， 核 多 力量 也 大 。 
4.7.4 fl 线程 对 比 
4.8” 并行 总结 


4.9 ”人 微 架构 总 结 


4.9.1 ”人 处理 器 性 能 公式 











馈 E 痢 
5.1 么 是 Cache 采 索 既 熟 悉 入 领 握 
今天 要 上 《高 数 》 课 ， 就 把 《高 数 》 的 课本 放 
进 书包 ， 明 天 要 上 《C 语 言 》， 就 把 书包 中 的 《高 
数 订 | 林 林 取 出 及 王 所 了 提 阁 言 汪 二 本 用 进 书 凶 本 这 个 





包 就 是 一 个 Cache (缓存 ) 。 


5 .1.1 随处 可 见 的 Cache 











我 们 通常 会 有 这 样 的 生活 习惯 ， 将 最 常用 的 东 
西 放 在 果 上 ， 这 样 可 以 最 方便 的 拿 到 ， 将 次 党 用 的 
东西 放 在 抽 屠 里 ， 也 能 较 快 的 拿 到 ， 将 不 第 用 的 东 





西 放 在 箱子 里 ， 去 箱子 里 拿 东西 需要 耗费 更 多 的 时 


间 。 

5.2,1 _ Cache 的 层次 一 一 层次 化 管 必 

5.2.2 _ Cache 的 工作 方式 一 丘比特 之 剑 ， 命 中 与 未 命 
5.2.3” Cache 的 映射 方式 一 一 多 对 一 的 策 

5.2.4 ” Cache 的 写 方 卫 尔 不 需要 知道 








5.3 ” Cache 一色 性 


现实 生活 中 第 常会 出 现 因为 沟通 不 畅 而 导致 的 
扯皮 ， 一 方 修改 了 菏 些 东西 ， 叉 没有 及 时 通知 到 为 
一 方 ， 导 致 双方 掌握 的 信息 不 一 致 ， 这 就 是 一 致 性 


问题 。 





5.3.2 Cache 一 致 性 的 底层 操 


5.3.3 Cache 一致 性 协 访 
5.4 可 寻 址 存储 器 火 件 管理 的 Cache 









YY ky 日 
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旦 | 


作为 程序 员 ， 我 们 应 该 勤俭 编码 ， 让 代码 使 用 
更 多 的 CPU 运算 量 ， 做 更 多 的 活 。 








扩 有 所 短 ， 寸 有 所 长 ， 每 种 处 理 器 都 有 目 己 擅 
长 与 不 擅长 的 操作 。 


6.3.1 少 





6.3.4 尽量 减少 分 支 


6.3.5 ”将 最 可 能 i 和 分支 放 在 站 中 ， \ 是 else 





处 理 器 运算 的 速度 像 兔子 一 样 快 ， 但 是 存储 器 
的 访问 速度 像 马 怨 一 样 慢 ， 而 且 越 是 远离 内 核 的 存 
储 需 ， 访 问 速度 越 慢 。 














6.4.8 己 管 理 动态 分 配 





战场 上 讲究 知己 知 彼 ， 百 战 不 至 。 写 代码 时 ， 
这 个 “ 彼 ” 就 是 编译 器 。 


6.5.1 编译 器 的 结 梳 昌 己 知 彼 ， 百 战 不 殖 








6.5.2 ”编译 器 提供 了 几 级 优化 选项 一 一 分 级 管 
6.5.3 ”编译 器 会 计算 常量 
6.5.4 ”简单 的 表达 式 化 简 








6.6 利用 多 核 来 加 速 程序 一 一 量 
让 多 个 核 或 多 个 CPU 来 共同 完成 一 件 工作 ， 这 
就 好 比 一 个 人 的 任务 ， 现 在 有 NN 个 人 来 帮忙 ， 这 活 怎 
人 么 分 呢 ? 
6.6.1 ”并行 计 和 售 
6.6.2 OpenMP 
第 7 瘟 ”SOC 一 一 吸 星 大 Y 
7.1 ”SOC 大 一 统 时 代 
相信 在 不 久 的 将 来 ， 设 计 一 个 SOC 心 请 也 像 措 
积木 一 样 简 单 。 


7.1.1 SOC 和 和 IP 
7.1.2 ”SOC 市 场 驱 友 
7.2 _IP 核 


在 《 竺 斗 士 星 矢 》 中 ， 神 斗士 几乎 就 是 黄金 圣 
斗士 的 翻版 ， 而 应 用 处 理 器 上 的 IP 核 也 几乎 能 在 PC 
机 上 找到 翻版 。 


7.2.1| CPU IP 
EU 
23]jobp 下 


7.2.4 Video Engine IP 
7.2.5 其 他 IP core 


7276 总 结 
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几 万 亿 个 游离 的 原子 ， 以 某 种 方式 聚集 在 一 
起 ， 以 复杂 和 奇妙 的 方式 构成 了 人 ， 几 十 亿 个 晶体 
管 ， 也 以 同样 复杂 奇妙 的 方式 组 织 在 一 起 ， 构 成 了 
多 
8.2.1 人 类 是 怎么 管理 复杂 ( 

8.2.2 ”芯片 设计 流程 
8.2.3 ”硬件 描述 语言 一 一 软 硬 不 分 
8.2.4 逻辑 综合 





8.2.6_ 物理 设 ; 


8.3 芯片 制造 





占 yl v, 全 


芯片 所 使 用 的 硅 就 是 从 这 些 沙子 中 提炼 出 来 
的 ， 所 以 说 ， 半 导体 行业 真 可 谓 是 点 沙 成 金 的 行 
业 。 





第 1 章 ” 益 游 计 算 机 世界 


从 起 源 中 理解 事物 ， 束 是 从 本 质 理解 事物 。 
一 村 勒 鲁 奇 





你 对 以 往 知道 的 愈 多 ， 对 未 来 就 看 得 愈 远 。 


一 一 温 斯 顿 : 丘 吉尔 














导读 一 一 人 机 大 战 


1997 年 5 月 3 日 至 11 日 ， 昱 联 12 年 国际 象棋 世界 冠军 的 卡 斯 帕 罗 夫 与 BM 公司 研制 的 巨型 计 
算 机 深蓝 进行 了 一 场 6 局 的 人 机 大 战 ， 看 看 下 图 卡 斯 帕 罗 夫 的 表情 ， 你 就 知道 比赛 结果 了 ， 卡 
斯 帕 罗 夫 以 2.5 分 比 3.5 分 的 总 成 绩 败 给 了 深蓝 。 










May 11th, 1997 上 
Computer won world champion of chess 
(Deep Blue) (Garry Kasparoy) 





(Reuters = Kyodo Nawe) 


深蓝 PK 卡 斯 由 罗 夫 


2011 年 2 月 14 日 ，IBM 的 计算 机 Watson 继续 挑战 人 类 ， 这 次 的 挑战 项 目 是 知识 竞赛 ， 它 的 
对 手 是 知识 竞赛 电视 节目 “Jeopardy! ”有 史 以 来 最 强 的 选手 Ken Jennings 和 Brad Rutter， 这 3 
个 “人 ”抢答 主持 人 提出 的 各 种 稀奇 古怪 的 问题 ， 问 题 涉 及 历史 、 时 事 、 科 学 、 艺 术 、 体 育 、 地 
理 、 流 行文 化 、 文 学 与 语言 、 文 字 游 戏 等 ， 结 果 Watson 以 大 比分 遥遥 领先 。 











NEWOY 





Watson 挑战 人 类 





不 是 人 脑 不 聪明 ， 只 是 电脑 太 疯狂 。 下 面 我 们 先 来 回顾 计算 机 的 
故事 。 





1.1 计算 机 的 前 世 、 今 生 、 来 世 


从 起 源 中 理解 事物 ， 就 是 从 本 质 理解 事物 。 
杜 勒 鲁 奇 
你 对 以 往 知道 的 愈 多 ， 对 未 来 就 看 得 愈 远 。 
温 斯 顿 ' 丘 吉尔 
地 球 的 任何 一 部 分 历史 ， 犹 如 一 个 士兵 的 生活 ， 由 长 期 的 无 聊 和 短期 的 念 怖 组 成 。 

一 一 德 雷 殉 .V' 埃 基 尔 


佛 家 喜欢 谈 三 世 ， 即 前 世 、 今 生 和 来 世 。 今生 过 得 不 好 ， 那 是 因为 
前 世 造 巷 了 ， 不 过 你 也 用 不 着 气 包 ， 如 果 今 生 好 好 修行 ， 来 世 还 是 可 以 
过 好 日 子 的 。 杜 勒 鲁 奇 说 ， 从 起 源 中 理解 事物 ， 就 是 从 本 质 理解 事物 。 
我 们 也 沾 沾 佛 祖 的 光 ， 来 谈 谈 计算 机 的 三 世 。 

1.1.1 计算 机 的 诞生 

1. 计算 机 之 父 

计算 机 的 家 世 很 混乱 ， 因 为 有 3 个 人 都 被 人 们 称 为 “计算 机 之 父 ”。 
他 们 分 别 是 : 查尔斯 : 巴 贝 奇 (1791 一 1871， 英 国人 ) ， 约 输 : 冯 : 诺 依 曼 
(1903 一 1957， 匈 牙 利 人 ， 美 籍 ) ， 阿 兰 .图 灵 〈1912 一 1954， 英 国 
人 ) 。 其 中 冯 : 诺 依 曼 作为 “计算 机 之 父 ” 的 知名 度 最 高 。 

与 其 浪 综 时 间 和 争论 谁 做 的 贡献 多 一 点 ， 不 如 了 解 他 们 都 做 了 哪些 页 
献 。 央 视 《 对 话 》 栏 目 在 一 期 节目 中 邀请 了 《功夫 熊猫 》 的 导演 ， 当 主 
持 人 称呼 他 为 “功夫 熊猫 之 父 ? 时 ， 他 谦逊 地 说 ， 我 更 像 是 功夫 熊猫 的 叔 
叔 ， 很 多 的 人 一 起 完成 了 这 项 杰作 。 

计算 机 不 是 一 个 科学 发 现 ， 而 是 一 个 科学 和 工程 结合 的 系统 工程 ， 
是 无 数 人 共同 努力 的 成 果 ， 因 此 ， 我 们 将 那些 做 出 突出 贡献 的 人 尊称 
为 “计算 机 之 叔 ? 或 “计算 机 之 妨 > 可 能 更 为 合适 。 


2. 从 计算 器 到 计算 机 一 一 字 之 差 ， 天 壤 之 别 











































































































计算 机 的 主要 工作 就 是 计算 ， 不 管 是 看 视频 还 是 上 网 ， 都 离 不 开 计 
算 。 历 史上 和 计算 机 最 接近 的 东西 ， 当 属 计算 器 。 

1642 年 ， 法 国 大 科学 家 由 斯 卡 发 明了 加 法 器 ， 我 们 在 高 中 学 过 他 的 
则 斯 卡 定 律 。1673 年 ， 德 国 大 科学 家 沫 布 尼 效 发 明了 乘法 器 ， 后 来 经 不 
断 改 进 ， 能 进行 加 、 减 、 乘 、 除 、 开 方 全 套 运算 ， 我 们 在 大 学 学 微 积分 
时 听 过 他 的 名 号 。 

计算 机 相 比 计算 器 ， 最 大 的 不 同 在 于 它 的 程序 思想 。 
看 帕斯卡 笑话 ， 回 顾 高 中 物理 


一 群 伟大 的 科学 家 死 后 在 天 尝 里 捉迷藏 。 轮 到 爱 因 斯 坦 抓 人 ， 他 数 到 100 睁 开眼 睛 ， 看 到 
所 有 人 都 藏 起 来 了 ， 只 有 和 牛顿 还 站 在 那里 。 爱 因 斯 坦 走 过 去 说 :“ 和 牛顿 ， 我 抓 到 你 了 。” 牛 


































































































顿 : “不 ， 你 没 抓 到 牛顿 。” 爱 因 斯 坦 : “你 不 是 牛顿 你 是 谁 ? ”牛顿 说 : “你 看 我 脚下 是 什 

么 ? ” 爱 因 斯 坦 低下 头 看 到 牛顿 站 在 一 块 长 宽 都 一 米 的 正方 形 的 地 板 上 ， 不 解 。 牛 顿 : “我 脚下 
这 是 一 平方 米 的 方块 ， 我 站 在 上 面 就 是 牛顿 / 平方 米 ， 所 以 你 抓 到 的 不 是 牛顿 ， 你 抓 住 的 是 由 
斯 卡 。” 一 一 引 自 网 络 


















































3. 程序 思想 的 来 源 


1801 年 ， 法 国人 约瑟夫 : 玛 利 : 亚 卡尔 创造 性 地 制造 了 一 合 织 布 机 。 
这 本 来 和 计算 机 没有 什么 关系 ， 不 过 这 人 台 织 布 机 十 分 的 巧妙 ， 它 织 出 来 
的 花样 可 以 通过 一 串 卡 片上 的 和 孔 来 决定 ， 人 们 事先 在 卡片 上 打 孔 来 设计 
织物 的 花样 ， 机 需 就 可 以 织 出 这 种 花样 ， 烦 有 点 通过 软件 来 控制 计算 机 
的 概念 。 这 个 发 明 对 后 世 的 计算 机 影响 重大 ， 打 孔 机 控制 技术 就 被 应 用 
到 早期 电子 计算 机 的 输入 设备 上 。 也 有 人 说 ， 计 算 机 是 织 布 机 的 后 代 。 
从 这 里 我 们 可 以 看 出 ， 创 新 并 不 是 指 完全 发 明 新 的 东西 ， 把 一 个 领域 中 
的 东西 搬 到 另 一 个 领域 ， 也 是 一 种 非常 好 的 创新 。 








约瑟夫 : 玛 利 : 亚 卡 尔 


4. 计算 机 第 一 人 


真正 开始 研究 计算 机 和 去 实现 计算 机 ， 当 从 英国 人 碍 尔 斯 ' 巴 贝 奇 
开始 。 巴 贝 奇 在 他 的 自传 《一 个 哲学 家 的 生命 历程 》 里 ， 写 到 了 大 约 发 
生 在 1812 年 的 一 件 事 : 

“有 一 天 上 晚上， 我 坐 在 剑桥 大 学 的 分 析 学 会 办 公 室 里 ， 神 志 懂 愧 地 
低头 看 着 面前 打开 的 一 张 对 数 表 。 一 位 会 员 走 进 屋 来 ， 瞧 见 我 的 样子 ， 
忙 喊 道 : ' 咀 ! 你 梦 见 什么 啦 ? :我 指 着 对 数 表 回答 说 : :我 正在 考虑 这 些 
表 也 许 能 用 机 器 来 计算 ! ”” 

巴 贝 奇 的 第 一 个 目标 是 制作 一 台 “ 差 分 机 ”， 那 年 他 刚 满 20 岁 。10 年 
后 ，1822 年 ， 差 分 机 初战 告捷 ， 运 算 精 度 达到 了 6 位 小 数 。 巴 贝 奇 进 一 
步 酝酿 运算 精度 为 20 位 的 差分 机 ， 然 而 ， 当 时 的 机 械 加 工 工艺 远 无 法 文 
撑 这 么 高 的 精度 ， 因 此 该 项 目 以 失败 告终 。 

差分 机 失败 后 ， 巴 贝 奇 提出 了 一 项 新 的 更 大 胆 的 设计 。 他 最 后 冲刺 
的 目标 ， 不 是 仅仅 能 够 制 表 的 差分 机 ， 而 是 一 种 通用 的 数学 计算 机 。 书 








贝 奇 把 这 种 新 的 设计 叫做 “分 析 机 ”。 他 从 法 国人 约瑟夫 . 玛 利 ' 亚 卡尔 友 
明 的 提 论 织 布 机 上 获得 了 灵感 ， 分 析 机 设计 内 炬 出 了 程序 控制 的 灵光 





一 一 它 能 够 按照 设计 者 的 则 意 ， 目 动 处 理 不 同 函 数 的 计算 过 程 。 
Ep 
a 本 





后 人 仿制 的 分 析 机 

巴 贝 奇 首先 为 分 析 机 构思 了 “ 存 贮 库 * 和 “运算 室 *。 此 外 ， 巴 贝 奇 也 

构思 了 送 入 和 取出 数据 的 机 构 ， 以 及 在 “存储 库 ” 和 “运算 室 ” 之 间 运 输 数 

据 的 部 件 。 一 个 多 世纪 过 去 后 ， 现 代 计 算 机 的 结构 几乎 束 是 巴 贝 奇 分 析 

机 的 翻版 ， 只 不 过 它 的 主要 部 件 由 机 械 变 成 了 集成 电路 。 因 此 ， 现 代 人 
给 巴 贝 奇 封 了 一 个 “计算 机 之 父 ” 的 称号 。 

巴 贝 奇 的 妨 一 个 重要 的 贡献 是 在 计算 机 控制 中 加 入 了 分 支 控 制 ， 使 





得 计算 机 和 计算 器 分 道 扬 镶 。 条 件 控制 非常 重要 ， 软 件 工程 师 都 非常 熟 
悉 ， 程 序 的 流程 有 3 类 : 顺序 、 分 文 、 循 环 ， 分 文 控 制 使 得 计算 机 可 以 
做 很 多 事 ， 而 不 像 计 算 器 只 能 做 一 件 事 。 

巴 贝 奇 不 是 一 个 人 在 战斗 ， 他 在 研制 计算 机 的 过 程 中 ， 找 到 了 一 个 
志同道合 的 女 助 手 ， 她 就 是 和 瑞 国 著名 浪漫 派 诗人 天 伦 的 女儿 一 一 爱 达 : 
拜 伦 〈 也 叫 爱 达 : 拉 弗 雷 斯 ， 同 丈夫 姓 ) 。 








查尔斯 : 巴 贝 奇 





爱 达 . 拜 伦 


5. 第 一 位 程序 员 一 一 居然 是 个 女人 





爱 达 出 生 不 久 后 父母 离异 ， 爱 达 由 母亲 抚养 成 人 。 深 受 数学 家 母亲 
的 影响 ， 她 从 小 就 酷爱 数学 ， 一 直 醉心 于 数学 研究 。 在 当时 ， 巴 贝 奇 的 
机 器 被 认为 是 没有 价值 的 ， 是 个 只 会 席 钱 的 废物 ， 巴 贝 奇 拉 不 到 经 费 ， 
也 得 不 到 人 们 的 理解 ， 不 过 爱 达 却 非常 清楚 这 项 工作 的 意义 。 爱 达 负 责 
为 这 台 还 没有 建成 的 机 器 写 程 序 ， 她 创造 了 子 程序 、 循 环 的 概念 。 后 来 
美国 国防 部 开发 了 一 种 面向 对 象 的 高 级 编程 语言 ， 为 了 纪念 这 位 计算 机 
软件 的 开山 之 祖 ， 美 国 国防 部 将 这 种 语言 命名 为 ADA《〈 爱 达 ) 。ADA 
语言 至 今 还 在 计算 机 的 某 些 领域 发 挥 着 重要 作用 ， 而 爱 达 也 被 人 们 尊称 
为 世界 上 第 一 个 程序 员 。 

程序 员 这 个 职业 一 般 被 认为 是 男性 职业 ， 就 像 我 所 在 的 公司 ， 写 软 
件 的 男女 比例 都 快 到 10: 1 了 ， 不 想 第 一 位 程序 员 却 是 个 女人 ， 而 且 是 
个 诗人 的 女儿 ， 历 史 真 是 把 玩笑 开 大 了 。 

巴 贝 奇 和 爱 达 的 想法 超前 世界 太 多 年 ， 当 时 人 们 对 电 还 没有 太 深 刻 
的 认识 ， 机 械 水 平 也 不 能 支撑 分 析 机 的 实现 ， 他 们 终 其 一 生 也 没 法 制造 
出 自己 所 设想 的 机 器 。 

直到 大 半 个 世纪 之 后 ， 在 哈佛 大 学 攻读 博士 学 位 的 美国 青年 霍 德 华 
' 艾 肯 (HAiken〉， 从 图 书馆 积 满 灰尘 的 书刊 里 发 现 了 分 析 机 论文 。 马 
贝 奇 仿佛 还 在 同 他 娓 娓 交谈 ， 为 他 讲解 那 台 机 器 的 结构 ， 目 光 中 充满 着 
期 竺 的 神色 。 以 艾 肯 所 处 时 代 的 科技 水 平 ， 已 经 能 够 实现 巴 贝 奇 的 凤 
愿 。 为 此 ， 他 写 了 一 篇 《自动 计算 机 的 设想 》 的 建议 书 ， 提 出 要 用 机 电 
方式 ， 而 不 是 用 纯 机 械 方 法 来 构造 新 的 “分 析 机 >”。 

1944 年 ， 在 IBM 公 司 提 供 的 100 万 美元 资助 下 ， 艾 肯 研 制 出 著名 的 
Mark I 机 电 式 计算 机 ， 设 计 思 想 几 乎 束 是 巴 贝 奇 分 析 机 的 翻版 ，Mark I 
当时 就 被 用 来 计算 原子 核 裂 变 过 程 。1946 年 ， 艾 肯 发 表 文章 写 道 : “这 
台 机 器 能 自动 实现 人 们 预先 选 定 的 系列 运算 ， 甚 至 可 以 求解 微分 方 
程 。” 这 是 对 巴 贝 奇 预言 最 好 的 验证 。 事 隔 多 年 后 ， 已 经 担任 大 学 教授 
的 艾 肯 博士 谈 起 巴 贝 奇 其 人 其 事 ， 仍 然 惊叹 不 已 ， 他 感慨 地 说 : “假如 
巴 贝 奇 晚 生 75 年 ， 我 就 会 失业 。” 























巴 贝 奇 和 爱 达 是 不 竺 的 ， 他 们 生前 所 作 的 工作 得 不 到 认可 ， 他 们 将 
种 子 种 在 了 地 下 ， 圣 勤 耕 克 ， 但 收获 的 却 不 是 他 们 。 在 巴 贝 奇 近 80 年 的 
奋斗 生涯 里 ， 屡 战 屡 败 ， 屡 败 屡 战 ， 他 始终 不 放弃 自己 对 叶 高 理想 的 追 
求 。 正 如 他 经 和 常 所 说 的 那样 : “不 管 今天 怎样 被 认为 是 无 用 的 知识 ， 到 
后 世 将 会 变 成 大 众 的 知识 ， 这 吏 是 知识 的 生命 力 。” 

巴 贝 奇 和 爱 达 过 得 很 翡 催 ， 不 过 悲 催 的 不 仅 是 他 们 ， 还 包括 下 面 这 
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位 。 
6. 图 灵机 


计算 机 领域 一 直 缺 少 一 个 奖项 。 诡 贝尔 奖 一 般 只 授予 基础 研究 的 
人 ， 像 计算 机 这 样 偏向 于 应 用 的 领域 却 是 很 难 获奖 。1966 年 ， 美 国 计 算 
机 协会 (Association for Computer Machinery，ACM) 设立 图 灵 奖 ， 专 
门 奖励 那些 对 计算 机 科学 研究 与 推动 计算 机 技术 发 展 有 日 越 贡 献 的 杰出 
科学 家 ， 图 灵 为 什么 能 担当 大 任 ， 因 为 他 是 用 理论 证 明 计 算 机 可 行 的 第 
= 人 

阿兰 :图 灵 于 1912 年 6 月 23 日 出 生 于 英国 伦敦 。 图 灵 很 小 的 时 候 就 显 
示 出 了 自己 的 科学 家 天 分 ，3 岁 时 ， 他 把 玩具 木头 人 的 用 膊 天下 来 种 植 
到 花园 里 ， 想 让 它们 能 长 出 更 多 的 木 涉 。8 岁 时 ， 图 灵 写 了 一 部 “科学 车 
作 ”: 《关于 一 种 显微镜 》， 除 了 错 了 几 个 单词 外 ， 还 算是 有 板 有 了 眼 。 


























阿兰 :图 灵 


1936 年 ，24 岁 的 图 灵 发 表 了 一 篇 论文 《On computable numbers， 
with an application to the entscheidungs problem》“〔 论 可 计算 数 及 其 在 判 
定 问题 中 的 应 用 〉 。 这 篇 论文 被 誉 为 是 阐明 计算 机 原理 的 开山 之 作 。 
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图 灵 的 著名 论文 
图 灵 在 这 篇 论文 中 ， 详 细 描 述 了 一 项 计算 任务 是 怎么 用 一 种 计算 机 
器 (Computing Machine) 来 完成 的 。 下 图 为 图 灵机 的 基本 组 成 : 
小 方 格 


读 写 头 指示 器 
图 灵机 基本 组 成 
图 灵 将 人 在 纸 上 的 计算 过 程 看 成 是 由 一 系列 机 械 的 行为 所 组 成 的 ， 





数据 存放 在 纸袋 上 ， 一 次 只 移动 一 格 ， 将 一 系列 大 的 步骤 拆 成 小 的 步 

又 ， 如 78x45， 先 计算 78x4， 再 计算 78x5， 而 78x4 又 可 以 再 分 成 7x4 和 

8x4， 所 有 的 计算 过 程 最 终 都 将 转换 成 非常 小 的 、 机 械 的 操作 过 程 ， 当 
前 时 刻 具 体 执 行 到 哪里 通过 读 写 头 指示 器 决定 。 如 果 将 这 种 思想 和 现在 
的 计算 机 类 比 一 下 ， 束 知道: 纸袋 就 像 一 个 存储 器 ， 读 写 头 就 像 是 程序 
旨 针 。 现 代 计 算 机 的 思想 实际 上 和 图 灵机 是 一 样 的 ， 图 灵 后 来 也 参与 了 
计算 机 的 研制 工作 。 

与 冯 : 诺 依 曼 同 时 代 的 富 兰 克 尔 (Frankel， 冯 : 诺 依 曼 同 事 ) 在 回忆 
中 说 : 冯 : 诺 依 曼 没 有 说 过 “存储 程序 ”型 计算 机 的 概念 是 他 的 发 明 ， 却 
不 止 一 次 地 说 过 ， 图 灵 是 现代 计算 机 设计 思想 的 创始 人 。 冯 : 诺 依 曼 的 
作用 是 使 世界 认识 了 由 图 灵 引 入 的 计算 机 基本 概念 。 

《时 代 》 杂 志 在 评价 码 : 诺 依 曼 时 说 : 

事实 上 ， 从 耗资 1000 万 美元 的 超级 计算 机 到 今天 的 无 线 电话 和 菲 比 
玩具 上 所 使 用 的 微小 芯片 ， 所 有 的 计算 机 都 有 一 个 共同 点 : 它们 都 
是 “ 汉 : 诡 依 曼 机 ”， 都 是 汉 : 诡 依 曼 基于 图 灵 在 20 世 纪 40 年 代 的 工作 所 提 
出 的 计算 机 的 基本 结构 的 变种 。 

图 灵 的 八卦 

图 灵 是 一 个 杰出 的 密码 破译 专家 ， 为 二 战 做 出 重要 贡献 ， 比 “ 黄 依 
依 ? 要 历 害 很 多 。 当 时 德国 采用 一 种 叫做 * 谜 ” (Enigma) 的 加 密 机 ， 图 
灵 成 功 的 设计 出 了 一 种 叫做 霹雳 弹 〈Bombe) 的 机 器 ， 成 功 地 破译 了 这 
台 加 密 机 。 事 实 上 ， 生 活 在 那个 时 代 的 很 多 科学 家 ， 都 或 多 或 少 地 和 战 
争 联 系 在 了 一 起 ， 如 香农 也 做 过 类 似 的 工作 。 

图 灵 也 是 人 工 智 能 的 先驱 ， 他 提出 了 一 个 模仿 游戏 试验 ， 后 人 称 
为 “图 灵 测 试 "?。 该 实验 把 被 提问 的 一 个 人 和 一 台 计 算 机 分 别 隔离 在 两 间 
屋子 ， 让 提问 者 对 人 和 计算 机 进行 问答 测试 。 如 果 提 问 者 分 不 清 回答 者 
是 人 还 是 机 器 ， 那 就 证 明 计 算 机 已 具备 人 的 智能 。 人 工 智 能 和 计算 机 的 
起 源 其 实 是 一 样 的 ， 早 期 的 很 多 科学 家 研究 计算 机 ， 主 要 还 是 想 用 它 来 
模拟 人 类 大 脑 的 逻辑 思维 过 程 进行 运算 、 推 理 等 。 





图 灵 还 是 一 位 运动 健将 ， 他 在 1947 年 用 两 小 时 46 分 3 秒 跑 完了 马 拉 
松 ， 这 绝对 是 个 专业 级 的 成 绩 。 

图 灵 的 晚年 过 得 十 分 凄惨 ， 他 是 一 个 同性 恋 ， 在 当时 并 不 能 得 到 人 
们 的 认同 ， 图 元 因 同 性 恋 而 被 起 诉 ， 职 业 生 洗 尽 苔 。1954 年 图 灵 因 为 食 
用 沾染 氰 化 钾 的 苹果 而 死亡 。 

2009 年 9 月 ， 身 国 首 相 布 朗 因 为 当年 瑞 国 政府 以 同性 恋 相 关 罪 名 起 
诉 图 灵 并 定罪 ， 导 致 他 自杀 里 亡 ， 正 式 同 图 灵 道 歉 。 

像 图 灵 这 样 ， 活 着 的 时 候 翡 惨 ， 死 后 被 人 当成 宝 的 人 大 有 人 在 ， 上 
面 说 的 巴 贝 奇 与 艾 达 也 是 这 样 。 在 三 大 计算 机 之 父 中 ， 就 属 冯 : 诺 依 曼 
过 得 最 滋润 ， 生 前 得 到 的 荣誉 最 高 。 


7. 第 一 合 电子 计算 机 之 争 


很 多 课本 上 都 将 ENIAC 作 为 世界 上 第 一 人 台电 子 计算 机 ， 并 且 和 伟大 冯 
诡 依 受 对 它 的 贡献 ， 其 实 不 然 。 

从 1939 年 一 1942 和 年， 约翰 ' 阿 塔 纳 索 夫 (John Vincent Atanasofft) 和 
克利 福 德 : 贝 利 (Clifford Berry) 在 衣 阿 华 州 立 大 学 物理 系 大 楼 的 地 下 室 
建成 了 世界 上 最 早 的 电子 计算 机 ABC (Atansoff-Berry Computer) ， 这 
台 计 算 机 天 是 以 他 们 的 名 字 命 名 的 。 

约翰 : 阿 塔 纳 索 夫 将 设计 计算 机 的 思路 蝶 不 保留 地 告诉 了 毛 奇 菜 
(John William Mauchly) ，1946 年 ， 毛 奇 全 和 艾 科 特 (John Presper 
Eckert) 建成 了 ENIAC 计 算 机 ， 并 在 世界 上 首次 取得 了 专利 。1973 年 ， 
美国 联邦 州立 法 院 判 处 ENIAC 的 专利 无 效 ， 因 为 它 的 设计 思路 源 自 约 骑 
: 阿 塔 纳 索 夫 的 发 明 ， 并 确认 阿 塔 纳 索 夫 是 第 一 个 电子 计算 机 方案 的 设 
讨 竹 5 

















阿 塔 纳 索 夫 








贝 利 





毛 奇 莱 ( 左 ) 艾 科 特 ( 右 ) 

在 第 二 次 世界 大 战 期 间 ， 美 国 军 队 非 常 迫切 地 需要 对 他 们 设计 的 新 
型 火炮 的 弹道 进行 计算 ， 当 时 ， 和 摆 方 雇 作 了 成 百 上 千 的 人 力 “ 计 算 机 ”， 
Compnuter 这 个 词 最 早 是 指 从 事 计 算 的 人 ， 到 后 来 才 独 指 计算 机 。 当 盏 方 
得 知 电子 计算 机 可 以 将 弹道 表 的 计算 时 间 从 几 天 缩短 到 几 分 钟 时 ， 军 方 
决定 资助 ENIAC 计 划 。 

1943 年 ， 该 项 目 由 美国 国防 部 出 资 ， 宾 西法 尼 亚 大 学 承建 。 该 计算 
机 直接 的 目的 是 在 第 二 次 世界 大 战 时 为 军 方 计算 弹道 的 轨迹 。 计 划 总 是 
赶不上 变化 ， 没 想到 德国 1945 年 就 投降 了 ， 不 过 ENIAC 的 研究 没有 停 
止 ， 因 为 计算 机 能 做 的 工作 远 不 止 计 算 弹 道 轨迹 这 么 简单 。 毛 奇 羔 任 首 
席 设计 师 ， 艾 科 特 任 首席 工程 师 (当时 24 岁 ) 。 建 成 后 ，ENIAC 是 当时 
世界 上 最 大 最 强 ， 也 是 最 有 影响 力 的 计算 机 ， 现 在 都 将 它 认 为 是 世界 上 
第 一 台电 子 计算 机 。 

1997 年 ， 为 了 纪念 这 台电 子 计算 机 诞生 50 周 年 ， 一 群 宾 西 法 尼 亚 大 
学 的 学 生 制 造 了 单 芯 片 的 ENIAC， 这 个 以 前 占 地 1800 平 方 尺 、 重 30 吨 、 
耗 电 170 干 瓦 的 庞然大物 现在 被 微缩 到 只 有 拇指 甲 大 小 的 蕊 片上 。 


8. 冯 : 诺 依 曼 机 


历史 上 ， 盏 有 数学 家 称号 的 人 不 少 ， 但 是 章 有 大 数学 家 称号 的 人 不 
多 ， 冯 : 诡 依 曼 就 是 其 中 一 个 ， 在 他 参与 ENIAC 研 制 前 ， 束 已 经 是 赫赫 
有 名 的 大 数学 家 了， 而 且 他 涉猎 极 请， 会 7 种 语言 ， 他 和 经 济 学 家 摩根 
一 起 合 著 了 《 博 殊 论 与 经 济 行为 》， 创 并 了 博 府 论 。 冯 : 诺 依 曼 有 人 句 名 
言 :“ 如 果 人 们 不 相信 数学 很 简单 ， 只 是 因为 他 们 没有 认识 到 生活 有 多 
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冯 : 诡 依 曼 于 1903 年 出 生 于 匈牙利 的 犹太 人 家 族 ， 后 来 来 到 美国 。 
1944 年 ， 话 伊 受 参加 原子 弹 的 研制 工作 ， 该 工作 涉及 极为 困难 的 计算 。 
1944 年 夏 的 一 天 ， 正 在 火车 站 候车 的 诡 依 曼 巧遇 苞 尔 斯 坦 ， 并 同 他 进行 
了 短暂 的 交谈 。 当 时 ， 戈 尔 斯 坦 是 美国 弹道 实验 室 的 军 方 负 贡 人 ， 他 正 


* 也 
讨 


参与 ENIAC 计 算 机 的 研制 工作 。 戈 尔 斯 坦 告诉 了 冯 : 诺 依 曼 有 关 ENIAC 
的 研制 情况 。 有 具有 远见 卓识 的 汉 : 诺 依 曼 立即 为 这 一 研制 计划 所 吸引 ， 
他 意识 到 了 这 项 工作 将 产生 深远 的 意义 。 














ENIAC 





冯 : 诺 依 曼 

1944 年 ， 汉 :. 诺 依 曼 加 入 了 ENIAC 团 队 ， 为 ENIAC 提 出 了 很 多 好 的 
建议 。 在 汉 : 诺 依 曼 加 入 到 ENIAC 团 队 中 时 ，ENIAC 的 研制 已 经 没有 什 
么 大 的 障碍 了 ， 人 们 开始 把 注意 力 转 向 下 一 代 计 算 机 一 -EDVAC， 冯 : 
诺 依 曼 也 开始 研究 新 机 器 的 逻辑 结构 。 

1945 年 6 月 ， 冯 : 诺 依 曼 提交 了 他 著名 的 101 页 的 “关于 EDAC 的 报告 
草案 ”， 里 面 描述 了 计算 机 的 逻辑 结构 ， 尤 为 重要 的 一 点 是 提出 了 “存储 
程序 ”的 思想 。 

说 来 刁 愧 ， 我 在 学 校 学 习 计算 机 的 时 候 ， 就 知道 了 “存储 程序 ”这 4 
个 字 ， 却 一 直 不 知道 它 是 什么 意思 ， 满 以 为 它 是 一 种 非常 高 深 的 技术 ， 
后 来 查阅 了 文献 才 知 道 ，ENLAC 的 编程 是 通过 手动 设置 开关 和 插 拔 电 
缆 来 实现 , “存储 程序 (stored-program) ”的 意思 就 是 将 程序 存储 到 计算 
机 内 部 ， 计 算 机 自动 执行 。 这 种 思想 在 现在 看 来 是 天 经 地 义 的 ， 不 过 在 
那 时 却 是 个 创举 。 

冯 : 诺 依 曼 定义 EDVAC 分 为 5 个 部 分 @ 运 算 单 元 ，@) 控 制 单元 ， 
存储 单元 ，@ 输 入 单元 ，@ 输 出 单元 ， 现 在 的 计算 机 也 都 使 用 这 个 结 








构 ， 人 们 把 这 个 结构 的 计算 机 称 为 “ 冯 : 诡 依 曼 机 ”。 
9. 逻辑 学 家 和 工程 师 的 矛盾 


色 : 诺 依 曙 的 报告 一 经 推出 ， 束 掀起 了 世界 的 计算 机 热潮 ， 成 为 划 
时 代 的 报告 ， 然 而 冯 : 诺 依 曼 在 报告 中 没有 署 上 毛 奇 羔 和 艾 科 特 的 名 
字 ， 一 个 人 把 风头 全 占 了 ， 这 令 他 们 十 分 的 不 满 ， 争 论 的 焦点 是 ， 
EDVAC 到 底 有 多 少 是 冯 : 诺 依 曼 个 人 的 贡献 。 这 个 问题 可 能 永远 也 无 法 
弄 清楚 。 艾 科 特 称 他 们 早 就 有 了 “存储 程序 ”的 想法 ， 只 是 还 没有 实现 。 

毛 奇 业 和 艾 科 特 还 是 很 有 商业 头脑 的 ， 他 们 试图 将 做 的 工作 转换 为 
商品 ， 力 争 得 到 ENIAC 和 EDVAC 的 专利 权 ， 但 是 由 于 冯 : 诺 依 曼 的 草案 
己 经 散发 ，EDVAC 己 经 不 能 申请 专利 。 他 们 收 到 了 ENIAC 的 专利 ， 不 
过 后 来 又 被 法 庭 宣布 无 效 。 

因为 专利 的 所 有 权 问 题 ， 毛 奇 莱 、 艾 科 特 和 学 校 发 生 了 分 歧 ， 他 们 
于 是 退出 了 学 校 ， 成 立 了 世界 上 第 一 个 计算 机 公司 一 一 艾 科 特 一 毛 奇 莱 
公司 。 一 年 后 ， 公 司 发 生 亏 损 ， 不 得 不 宣告 破产 ， 后 来 被 Remington 
Rand 收 购 ， 毛 奇 莱 和 艾 科 特 于 是 又 专心 从 事 计算 机 的 研究 ， 他 们 后 来 又 
设计 出 了 著名 的 UNIVAC 计 算 机 。 

毛 奇 莱 和 艾 科 特 离开 后 ， 宾 西法 尼 亚 大 学 元 气 大 伤 ， 冯 : 诺 依 曼 也 
离开 了 EDVAC 研 制 小 组 ， 回 到 普林斯顿 高 等 研究 院 ， 在 那里 研制 阿 艾 
斯 机 (IAS) 。 











阿兰 :图 灵 提 出 了 图 灵机 的 理论 ， 证 明了 研制 通用 计算 机 的 可 能 
性 ， 约 验 ' 阿 塔 纳 察 夫 和 克利 福 德 : 贝 利用 电子 元 件 制 造 出 了 电子 计算 机 
的 骏 形 ， 毛 奇 茉 和 艾 科 特 吸 收 阿 塔 纳 索 夫 的 思想 ， 依 托 军 方 的 资金 文 
持 ， 制 成 了 第 一 台 通 用 电子 计算 机 ， 冯 : 话 依 曙 将 电子 计算 机 的 结构 逻 
辑 化 、 系 统 化 ， 莫 定 了 电子 计算 机 的 系统 结构 。 











1.1.2 ”从 军用 到 民用 一 一 飞 入 寻常 百姓 家 
1. IBM 的 诞生 


IBM 对 计算 机 做 出 了 重要 贡献 ， 虽 然 现 在 更 多 的 涉及 信息 服务 业 ， 
但 是 仍然 是 计算 机 领域 的 重量 级 选手 ， 服 务 器 、 处 理 器 、 心 片 制造 等 领 
域 都 居于 业界 前 列 。 

IBM 的 历史 ， 最 早 可 以 追溯 到 “ 制 表 机 器 公司 ”。 

美国 宪法 规定 ， 每 10 年 要 在 全 国 进 行 一 次 人 口 普查 ， 以 便 决定 每 个 
州 议员 的 人 数 。 最 早 一 次 人 口 普 查 是 1790 年 ， 花 了 9 个 月 时 间 ， 到 了 
1880 年 ， 由 于 人 口 急 剧 增加 ， 居 然 花 了 7 年 半 ， 这 就 好 比 一 顿 饭 吃 了 4 个 
小 时 ， 中 午饭 还 没有 消化 ， 又 要 开始 准备 吃 晚饭 了 。 于 是 当局 认识 到 : 
必须 要 有 机 器 来 帮助 自动 化 处 理 。 美 国人 口 普查 局 拿 出 一 大 笔 奖金 ， 希 
望 有 一 个 发 明 者 来 帮助 做 这 些 事情 。 

所 谓 重 赏 之 下 ， 必 有 勇 夫 ， 在 这 个 背景 下 ， 霍 勒 里 斯 应 运 而 生 ， 他 
发 明了 机 械 制 表 机 ， 并 创建 了 “ 制 表 机 器 公司 ”。 经 过 多 次 的 转手 和 重 
组 ， 最 后 公司 转 到 了 老 托 马 斯 : 沃 森 手中 ， 更 名 为 国际 商用 机 器 公司 
(IBM) 。 























机 械 制 表 机 


第 二 次 世界 战争 是 机 械 时 代 和 电子 时 代 的 分 水 岭 。IBM 自 己 研制 和 
资助 别人 研制 了 几 台 计算 机 ， 而 真正 帮助 IJBM 在 商业 上 成 功 的 计算 机 是 
701 计 算 机 。 

701 计 算 机 研制 的 动力 来 自 于 1950 年 的 朝鲜 战争 ， 当 时 老 托马斯 询 
问 美国 政府 : 公司 能 为 战争 做 什么 ? 他 马上 被 告知 : 给 国防 部 捐 一 台大 
型 的 计算 机 。 

1951 年 ，IBM 着 手 开 发 这 台 计 算 机 ， 同 时 聘请 冯 : 诺 依 曼 担任 公司 
的 科学 顾问 ，1952 年 [BM 完成 了 701 计 算 机 的 开发 ， 后 来 又 生产 了 18 
台 ， 几 台 送 给 了 政府 ， 几 台 卖 给 了 公司 ， 这 是 世界 上 最 早 大 规模 商用 的 
计算 机 。 

IBM 对 朝鲜 战争 的 投入 ， 可 不 只 几 台 计算 机 。IBM 那 时 以 精密 机 械 
制造 撞 长 ，IBM 和 男 一 家 公司 为 美国 军 方 生产 M1918A2 擂 表 宁 目 动 步 
枪 ， 访 枪 也 是 朝鲜 战争 时 期 的 主力 步枪 。 

20 世 纪 50 一 70 年 代 ， 是 IBM 的 黄金 年 代 ，IBM 在 全 球 计算 机 行业 处 
于 绝对 的 领导 地 位 ， 罕 有 对 手 。 它 的 企业 标志 一 一 IBM， 每 个 字 由 8 根 

















蓝 条 拼 成 ， 它 的 销售 人 员 ， 一 律 穿 着 深蓝 色 的 西服 ， 衬 托 出 IBM 不 可 一 
世 的 轮廓 ， 人 们 开始 把 IBM 称 作 “ 监 色 巨人 ”。 


2. 小 型 机 的 兴起 


随 着 战争 的 结束 ， 军 用 计算 机 的 时 代 已 经 过 去 ， 随 之 而 来 的 是 公司 
和 学 校对 计算 机 的 需求 大 增 。 一 大 批 新 的 计算 机 公司 应 运 而 生 ， 其 中 的 
佼佼 者 就 是 数字 设备 公司 (DEC) 。 

1953 年 冬天 ， 有 一 个 年 轻 的 工程 师 在 IBM 实 验 室 大 门 外 ， 信 站 且 旦 
地 说 :“ 我 要 在 IBM 的 地 各 上 将 IBM 击 败 *"， 这 个 人 就 是 Kenneth Olsen 。 

1957 年 ，Kenneth Olsen 创 立 了 DEC 公司 ， 为 了 不 引起 IJBM 的 注意 ， 
防止 它 打 压 ， 公 司 的 名 字 和 产品 的 名 字 起 得 非常 有 讲究 ，DEC 是 Digital 
Equipment Company 的 缩写 ， 故 意 不 涉及 计算 机 字眼 。1959 年 ，DEC 的 
第 一 台 计 算 机 PDP-1 (Program Data Processor) 上 市 。 相 对 于 IBM 的 庞 
然 大 物 ，PDP-1 只 有 冰箱 这 么 大 ， 可 以 说 是 小 巧 玲 珑 。Olsen 也 获得 
了 “小 型 机 之 父 ” 的 称号 。 到 了 70 年 代 ，DEC 成 为 与 BM 齐名 的 世界 第 二 
大 计算 机 公司 ， 事 业 到 达 了 赂 峰 ， 不 过 DEC 却 一 直 没 有 能 够 打败 IBM。 

















Kenneth Olsen 小 型 机 之 父 
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值得 一 提 的 是 ， 计 算 机 的 发 展 史 上 有 两 个 华人 做 出 了 突出 贡献 。 


朱 传 案 ， 他 参与 了 ENIAC 设 计 ， 获 得 了 1981 年 计算 机 先驱 奖 。 

王 安 ， 他 发 明了 “ 磁 蕊 存储 器 ”等 多 项 技术 ，1988 年 ， 被 先入 美国 发 明 家 名 人 堂 。 王 安 创办 
了 王 安 电脑 公司 ， 曾 经 红 极 一 时 ， 不 过 后 来 王 安 执 意 将 公司 传 给 自己 的 儿子 ， 再 加 上 其 他 一 系 
列 的 失误 ， 公 司 最 终 倒闭 。 

















1.1.3 个 人 计算 机 时 代 一 一 英雄 幸 出 的 时 代 


什么 是 历史 ， 什 么 是 英雄 ， 是 英雄 造 束 了 历史 ， 还 是 历史 成 就 了 英 
雄 ? 个 人 计算 机 时 代 正 是 个 英雄 幸 出 的 时 代 ! 这 个 时 代 属 于 Intel， 
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1. Intel 诞 牛 


硅谷 


十 

1955 年 秋天 , “ 唱 体 管 之 父 ” 肖 克利 从 加 利 福 尼 亚 商 人 Arnold 
Beckman 那 里 得 到 了 资金 文 持 ， 回 到 了 自己 的 故乡 加 利 福 尼 亚 的 Palo 
Alto 创 立 了 “ 肖 克 利 半 导体 实验 室 ”。Palo Alto 同时 也 是 斯 坦 福 大 学 和 惠 
普 的 所 在 地 ， 这 里 是 一 个 狭长 的 山谷 ， 空 气 清 新 ， 气 候 宜人 ， 当 地 人 叫 
做 Bay Area( 湾 区 ) 。 肖 克 利 把 半导体 带 到 了 这 里 ， 这 之 后 的 几 十 年 ， 
这 里 成 为 了 举世 闻名 的 “硅谷 ”， 据 资 ， 加 州 每 年 制造 的 品 体 管 数目 比 下 
的 雨滴 还 多 。HP、Intel、Cisco、3Com、Sun、AMD、Oracle、Apple、 
Adobe、Yahoo、Google、Facebook 等 公司 的 总 部 都 建 在 这 里 。 

A 











Google 总 部 





Facebook 总 部 
山 不 在 高 ， 有 仙 则 名 。 众 不 在 深 有 硅 则 灵 ! 
肖 克 利 从 全 国 招 了 一 批 有 才华 的 年 轻 工 程 师 、 物 理学 家 、 化 学 家 。 
肖 克 利 是 一 个 优秀 的 科学 家 ， 但 却 不 是 一 个 优秀 的 管理 者 。 他 在 贝尔 试 





验 室 时 ， 总 认为 别人 抢 走 了 本 属于 自己 的 荣誉 ， 因 此 在 公司 里 ， 所 有 的 
构思 和 发 展 方 同 都 由 他 来 决定 ， 他 所 雇佣 的 那些 有 才华 的 人 ， 在 他 严 历 
的 管理 方式 下 无 休止 的 工作 着 。1957 年 ， 以 Robert Noyce 和 Gordon 
Moore 为 首 的 8 个 人 找到 了 Beckman， 要 求解 除 肖 克利 的 管理 职务 ， 只 人 允 
许 肖 克利 作为 一 个 技术 顾问 ，Beckman 认 真 的 考虑 了 一 个 月 ， 最 后 还 是 
决定 让 肖 克 利 继续 领导 。 随 后 ， 后 来 被 称 为 “硅谷 八 叛 将 〈Traitorous 
Eight) ”的 这 8 个 人 离开 了 公司 。 

Robert Noyce 


“人 硅谷 八 叛 将 ”辞职 后 ， 他 们 组 建 了 一 个 名 为 Fairchild 
Semiconductor《〈 仙 童 半导体 ) 的 公司 ， 由 Fairchild Camera and 
Instruments 公 司 提 供 资金 文 持 。Noyce 任 总 经 理 。 

当时 ，Noyce 和 德州 仪器 的 Jack ”Kilby 分 别 发 明了 集成 电路 ，2000 
年 ， 瑞 典 星 家 科学 院 决 定 把 当年 的 详 贝 尔 物 理学 奖 贫 给 集成 电路 的 发 明 
人 ， 但 当时 Noyce 已 亡故 ， 由 于 话 贝 尔 奖 在 传统 上 不 授予 已 亡故 的 科学 
家 ， 因 此 Kilby 独 享 了 此 项 殊荣 。 








仙 童 半导体 公司 在 Noyce 的 精心 运筹 下 ， 业 务 迅 速 地 发 展 。 同 时 ， 
一 整套 制造 晶体 管 的 平面 处 理 技术 也 日 趋 成 熟 ， 这 得 荔 于 “硅谷 八 叛 
将 ”之 一 的 Jean A. Hoerni， 他 发 明了 半导体 制造 工艺 中 至 关 重 要 的 平面 
处 理 技术 ， 极 大 地 降低 了 半导体 器 件 的 价格 ， 为 集成 电路 的 成 功 创造 了 
前 提 ， 从 而 获得 1980 年 的 计算 机 先驱 奖 。 

后 来 ， 仙 童 半导体 的 母 公 司 不 断 把 利润 转移 到 东海 岸 ， 使 得 创业 团 
队 十 分 恼火 。 于 是 ， 典 型 的 资方 和 管理 团队 的 矛盾 出 现 了 。8 叛 将 中 的 7 
个 重新 出 逃 创业 ， 其 中 ，Robert Noyce 和 Gordon Moore 于 1968 年 创立 了 
Intel (INTegrated ”Electronics 的 缩写 ) 。AMD、 美 国 国 家 半导体 、LSI 
Logic、VLSI Technology、Intersil、Altera 和 Xilinx 等 业界 众多 巨 璧 的 创 
始 人 都 来 自 仙 童 半 导体 。 笠 果 公 司 的 乔布斯 有 这 样 的 比喻 : “ 仙 重 半 导 
体 公 司 就 像 个 成 熟 了 的 浦 公 英 ， 你 一 吹 它 ， 这 种 创业 精神 的 种 子 就 随 风 
四 处 飘扬 了 ”。 由 于 “硅谷 ”很 多 企业 都 和 Noyce 有 直接 或 者 间接 的 关系 ， 
Noyce 更 是 被 人 送 了 一 个 绰号 一 一 “ 健 谷 市 长 ”。 








硅谷 八 叛 将 ， 各 个 身 怀 绝技 并 事业 有 成 


Gordon Moore 


Gordon Moore 在 国内 比 Noyce 更 出 名 ， 因 为 大 家 耳熟能详 的 摩尔 定 
律 就 是 他 说 的 ， 关 于 摩尔 定律 有 多 个 版 本 ， 最 常见 的 版 本 是 集成 电路 上 
晶体 管 的 数目 每 18 个 月 翻 一 番 ， 也 有 每 一 年 翻 一 番 和 每 两 年 翻 一 番 的 版 
本 。 摩 尔后 来 自己 说 : “摩尔 定律 源 自 1965 年 我 为 《电子 学 》 氛 写 的 文 
章 。 我 预见 到 ， 我 们 将 制造 出 更 复杂 的 电路 从 而 降低 电器 的 成 本 一 一 根 
据 我 的 推算 ，10 年 之 后 ， 一 块 集成 电路 板 里 包含 的 电子 元 件 会 从 当时 的 
60 个 增加 到 6 万 多 个 。 那 是 个 胆 大 的 推断 。1975 年 ， 我 义 对 它 做 了 修 
正 ， 把 每 一 年 翻 一 番 的 目标 改 为 每 两 年 翻 一 一。”( 引 上 自 Intel 网 站 ) 

不 管 是 12 个 月 ， 还 是 18 个 月 ， 还 是 24 个 月 等 ， 摩 尔 定律 描述 了 一 种 
指数 增长 的 趋势 ， 指 数 增 长 是 非常 吓人 的 ， 稍 微 磁 几 下 就 会 得 到 一 个 天 
文 数字 。 如 果 你 用 信用 卡 ， 欠 了 银行 一 块 钱 不 还 ，20 年 后 ， 银 行 可 能 要 
让 你 还 几 十 万 ， 这 是 因为 银行 是 用 复 利 来 计算 的 ， 复 利 就 是 指数 ， 增 长 
势头 吓人 > 
Andy Grove 


Andy Grove 是 Intel 的 第 3 个 员工 ， 他 在 业界 享有 右 名 ， 一 方面 是 因 
为 他 领导 Intel 时 ， 是 Intel 的 鼎盛 时 期 ，1997 年 美国 《时 代 周 刊 》 授 予 
他 “年 度 风 云 人 物 ”，1998 年 美国 管理 学 会 赋予 他 “年 度 杰出 经 理 *”，2001 
年 他 获得 战略 管理 协会 “ 终 届 成 就 奖 ”"，2004 年 被 湛 顿 商学 院 提 名 为 25 年 
来 最 有 影响 力 的 CEO。 

还 有 一 个 原因 是 Andy Grove 写 过 一 本 畅销 书 《Only the Paranoid 
Survive》， 这 本 书 在 中 国 被 翻译 为 : 《只 有 偏执 狂 才 能 生存 》， 这 人 句 话 
一 直 像 圣经 一 样 激励 着 无 数 有 梦想 的 人 ， 事 实 上 ， 很 多 人 理解 的 这 人 句 话 
的 意思 和 格 鲁 夫 (Grove) 说 的 并 不 是 同一 个 意思 。 英 文 词 和 中 文 词 在 
直接 翻译 时 会 存在 意义 偏差 |.“ 偏执 狂 ” 这 个 词 通俗 意思 是 指 一 个 人 目标 
执着 ， 近 平 固执 ， 撞 了 南 墙 也 不 回 涉 ， 而 医学 上 的 解释 则 是 一 个 人 有 妥 
想 症 ， 极 上 度 的 敏感 多 疑 ， 思 想 行 为 固执 死板 。 在 《Only the Paranoid 
Survive》 这 本 书 中 ， 作 者 开篇 着重 描述 让 Intel 6 周 损失 4.75 亿 美金 的 奔 
腾 心 户 浮 点 bug 事 故 ， 后 面 讲 的 都 是 变化 ， 以 及 改变 就 能 生存 ， 不 改变 


















































就 会 灭亡 。 整 本 书 的 主题 是 要 想 生 存 ， 就 必须 敏感 的 感受 变化 ， 拥 抱 变 
化 ， 并 采取 行动 。 或 许 这 人 句 话 翻译 成 “ 叭 有 悍 者 才能 生存 ”可 能 更 好 ， 而 
这 人 句 话 正 是 力 一 企业 家 任正非 的 名 言 ， 可 见 瑞 雄 通 常 所 见 略 同 。 














Andy Grove 


2. Altair;i 延 生 


1974 年 ，MITS 公 司 的 创始 人 Edward Roberts (爱德华 : 罗 伯 次 ) 发 明 
了 世界 上 第 一 台 个 人 计算 机 (Personal Computer，PC) ， 命 名 为 
Altair《〈 和 牛 郎 星 ) 。 也 有 人 说 第 一 人 台 个 人 计算 机 应 该 是 1973 年 施乐 则 殉 
研究 中 心 的 奥 托 (Alto) ， 其 实 很 难 找到 严格 意义 上 的 第 一 个 吃 螃 蟹 的 
人 ， 因 为 大 家 对 虹 蟹 的 定义 可 能 不 一 样 。 

Roberts 给 个 人 计算 机 定 了 这 样 的 概念 : 这 是 一 个 体积 小 、 价 钱 低 、 
可 以 摆 在 家 里 供 个 人 使 用 ， 而 不 是 以 往 在 人 们 印象 中 那 种 只 有 在 实验 室 
才能 见 到 的 、 昂 贵 的 、 需 要 多 人 操作 的 庞然大物 。 

Altair 计 算 机 获得 成 功 后 ，Roberts 的 生活 也 发 生 了 巨大 的 变化 ， 他 
每 天 不 得 不 花 大 量 的 时 间 去 应 付 各 种 公司 和 媒体 ， 尽 管 产 品 的 成 功 给 他 
带 来 了 可 观 的 收入 ， 但 他 认为 “这 样 的 生活 是 一 种 前 获 "”，1977 年 ， 他 煞 
然 将 公司 出 售 给 了 一 家 叫 Pertec 的 公司 ， 目 己 则 进 了 医学 院 ， 后 来 成 了 
一 名 医生 。 

Altair 的 成 功 昌 然 短 暂 ， 而 且 几 乎 没有 太 大 的 名 气 ， 但 是 它 却 影 啊 
了 后 来 成 名 的 3 家 公司 : Intel (Altair 计 算 机 采用 的 是 Intel 的 8080 处 理 
器 )， 微 软 ， 苹 果 。 
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Edward Roberts 和 他 的 Altair 
3. 微软 诞生 


Altair 上 市 之 后 ， 哈 佛 大 学 二 年 级 法 律 系 学 生 比 尔 : 盖 次 和 他 的 同学 
保罗 . 艾 伦 立即 意识 到 个 人 计算 机 将 有 无 限 前 景 ， 于 是 目 千 奋勇 的 为 
Altair 开 发 软件 。 经 过 两 个 月 的 通宵 达旦 ， 他 们 成 功 开发 出 了 在 Altair 上 
的 BASIC 编 译 占 。3 个 月 后 ， 冀 次 敏锐 地 察觉 到 :; 计算 机 的 发 展 太 快 
了 ， 等 大 学 毕业 ， 他 可 能 就 失去 了 一 个 千载难逢 的 机 会 。 于 是 1975 年 6 
月 ， 凋 欧 放 莽 了 这 所 世界 上 最 好 大 学 的 毕业 证 书 ， 煞 然 选择 了 退学 创 
业 ， 和 保罗 一 起 开创 了 微软 帝国 的 神话 。 

















微软 初期 团队 


4. 于 果 诞生 


史 带 夫 : 乔 布 斯 〈Steve Jobs) 和 史 带 夫 : 沃 北 尼 亚 元 (Steve 
Wozniak) 都 是 电子 技术 的 爱好 者 ， 他 们 经 常 参加 家 醒 计 算 机 俱乐部 
(Homebrew Computer Club) 的 活动 ， 在 这 里 ， 他 们 看 到 了 Altair 计 算 
机 、8080 芯 片 等 新 的 东西 并 深 受 启发 。1975 年 ， 沃 兹 用 MOS Technology 
公司 的 6502 必 请 制造 了 一 台 个 人 计算 机 ， 弄 布 斯 立即 意识 到 这 个 小 巧 的 
业余 机 器 有 着 巨大 的 商业 前 景 。1976 年 ， 乔 布 斯 说 服 沃 效 和 乔布斯 的 另 
一 位 好 友 罗 恩 - 韦 恩 一 起 成 立 了 苹果 公司 ， 他 们 把 沃 兹 设计 的 第 一 批 产 
品 叫做 * 毕 果 工 "”。1977 年 , “苹果 工 ” 上 市 ， 造 成 了 意 想 不 到 的 又 动 ， 苹 
果 成 为 个 人 计算 机 领域 最 成 功 的 计算 机 公司 ， 乔 布 斯 也 被 《时 代 》 杂 志 
刊登 在 封面 ， 成 为 美国 人 心中 的 楷模 。 
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史 带 夫 : 乔 布 斯 〈《 左 ) 和 史 带 夫 : 沃 效 尼 亚 死 《〈 右 ) 





5.IBM-PC 出 世 


到 了 这 个 时 候 ， 谁 都 知道 个 人 计算 机 市 场 是 个 巨大 的 金 矿 ， 计 算 机 
传统 巨头 IBM 当 然 也 不 例外 。IBM 也 曾 在 个 人 计算 机 领域 做 过 党 试 ， 但 
是 并 不 成 功 。IBM 知 道 ， 如 果 还 不 能 在 个 人 计算 机 市 场 有 所 斩获 ， 自 己 
这 个 老大 哥 就 要 在 新 时 代 面 前 丢人 现 眼 了 。 

1980 年 7 月 ，IBM 召 开 高 层 会 议 ， 要 对 如 火 如 蔡 的 个 人 计算 机 浪潮 
做 出 反应 。 唐 . 埃 斯 特 里 奇 (Don Estridge)〉 受 任 于 败 军 之 际 ， 奉 命 于 危 
难 之 则 ， 担 任 项 目 负 责 人 ， 要 在 一 年 之 内 推出 IBM 的 PC 机 。 

Estridge 知 道 12 个 月 是 不 可 能 从 头 到 尾 完成 开发 的 ， 唯 一 的 出 路 的 
就 是 打破 传统 的 什么 都 做 的 策略 ， 尽 可 能 的 引入 已 经 存在 的 通用 部 件 。 
于 是 ，IBM 采 用 了 intel 的 8088 处 理 器 ， 微 软 的 MS-DOS 操 作 系 统 ， 开 发 
出 了 自己 的 个 人 计算 机 : IBM-PC。IBM 的 这 个 决定 直接 导致 了 微软 和 
Intel 后 来 的 成 功 。 

IBM-PC 一 经 推出 ， 在 市 场 上 大 受 欢迎 ， 随 之 成 为 “个 人 计算 机 ”的 
代名词 。IBM 的 这 种 PC 机 构思 设计 成 为 一 种 “开放 式 ” 的 体系 结构 ， 各 个 
部 件 模块 化 发 展 使 得 PC 机 得 以 迅速 发 展 ， 正 如 同 社 会 分 工 促进 社会 进 











步 一 样 ， 大 量 的 [BM-PC 的 克隆 产品 (IBM-PC 兼 容 机 〉 如 雨后春笋 般 的 

滋生 出 来 ， 使 得 PC 机 价格 一 泻 千 里 ， 成 为 普通 群众 买 得 起 的 产品 。 
1986 年 ， 康 柏 率先 使 用 Intel 的 386 处 理 器 ， 迅 速 抢占 了 市 场 ， 于 是 

IBM 从 PC 行业 老大 哥 的 位 置 上 落 了 下 来 ， 一 大 批 新 的 公司 成 长 起 来 。 


6. 图 形 用 户 界 面 出 世 


20 世 纪 70 年 代 , “ 夷 果 工 ?在 个 人 计算 机 市 场 引 发 了 一 场 革 命 ， 严 重 
挑战 了 IBM 老 大 哥 的 地 位 ;80 年 代 初 ，“IBM-PC2? 引 发 了 另 一 场 革 命 ， 
IBM 重 新 问世 界 宣告 : 我 才 是 计算 机 世界 的 老大 。 苹 果 公 司 面临 空前 的 
生存 危机 。 

为 了 拯救 苹果 于 危难 之 中 ，1983 和 年， 乔布斯 出 奇 招 ， 将 对 计算 机 一 
寄 不 通 的 美国 百事 可 乐 主管 销售 的 约 畏 :斯 卡 利 请 了 过 来 。 斯 卡 利 在 70 
年 代 领 导 了 一 场 享 誉 美国 的 商战 ， 人 硬是 从 百年 老 店 可 口 可 乐 的 虎口 中 夺 
食 ， 抢 走 了 半壁 份额 。 斯 卡 利 成 名 已 入 ， 对 乔布斯 开始 并 不 感冒 ， 不 过 
乔布斯 的 一 句 话 还 是 打动 了 斯 卡 利 :“ 你 是 想 一 辈子 卖 糖 水 ， 还 是 想 改 
变 世 界 ? ” 

销售 技巧 是 锅 上 添 花 ， 而 优质 的 产品 特性 才 是 制胜 关键 。 乔 布 斯 的 
秘密 产品 特性 就 是 图 形 界面 。1979 年 12 月 ， 乔 布 斯 和 几 位 苹果 的 工程 师 
参观 了 施乐 公司 (Xerox) 的 PRC 研 究 中心 (Xerox Palo Alto Research 
Center) ， 他 们 被 PARC 的 GUI (图 形 用 户 界 面 〉 深 深 的 吸引 了 ， 回 来 
后 ， 他 们 就 把 这 个 想法 做 到 了 目 己 的 机 器 上 。1983 年 ， 苹 果 推 出 Lisa 电 
脑 ， 但 是 由 于 成 本 太 高 ， 后 来 被 人 砍 摊 。1984 年 ，Macintosh 诞 生 了 。 伴 
随 独 斯 卡 利 狂风 暴雨 般 的 宣传 攻势 ， 以 及 Macintosh 绚 丽 的 用 户 界 面 ， 
苹果 又 一 次 打败 了 自己 的 老大 哥 一 一 IBM。 和 当时 的 Macintosh 比 起 来 ， 
IBM-PC 只 能 用 土 得 掉 漆 来 形容 。 























Macintosh 电 脑 


为 他 人 做 尹 衣 演 的 施乐 PARC 
施乐 的 PARC 对 计算 机 领域 做 出 了 不 可 磨灭 的 贡献 ， 微 软 、 苹 果 等 公司 都 从 它 的 研究 成 果 
中 获 利 不 少 ， 不 过 ， 施 乐 自己 却 获 利 很 少 。 有 两 家 公司 的 成 立 和 PARC 有 直接 关系 。 





PostScript 用 一 种 公式 描述 字母 和 数字 ， 这 样 字体 在 放大 、 缩 小 和 打印 时 都 能 保持 同样 的 清 
晰 度 。PostScript 技 术 由 两 名 PARC 的 研究 人 员 发 明 ， 两 名 发 明 者 后 来 得 到 了 风险 投资 ， 创 办 了 
自己 的 公司 ， 运 用 这 项 技术 创造 出 了 桌面 出 版 这 个 全 新 的 行业 ， 这 家 公司 的 名 字 就 是 Adobe。 

在 PARC 工 作 的 Robert Metcalfe 发 明了 以 太 网 ， 他 随后 于 1979 年 创办 了 著名 的 3Com 公 司 。 








7， 微软 、Intel 双 双 晋 级 


微软 空手 套 白 狼 

IBM 在 研发 IBM-PC 时 ， 需 要 操作 系统 ， 比 尔 : 盖 次 昕 到 这 个 消 乱 江 
即 就 去 找 IBM 公 司 ， 要 求 合 作 。IBM 本 来 想 使 用 一 个 叫做 CP/M 的 操作 系 
统 ， 盖 茨 你 出 免费 的 绝招 ， 拿 下 了 IBM。 盖 茨 买 下 了 Tim Paterson 的 
QDOS 软 件 ， 在 其 帮助 下 改编 成 MS-DOS。 由 于 IBM-PC 兼 容 机 的 兴起 ， 
MS-DOS 得 以 大 卖 ， 历 史上 从 来 没有 哪个 软件 有 这 么 大 的 用 户 数 ， 微 软 
依托 MS-DOS 快 速 崛 起 。 后 来 Tim Paterson 投 奔 到 微软 门下 ， 发 现 自己 设 
计 的 操作 系统 正 是 微软 的 金 矿 ， 不 禁 大 为 恼火 ， 不 过 此 时 也 已 无 可 奈 
何 。 


微软 打败 苹果 

Macintosh 的 兴起 使 得 GUI 深 入 人 心 。 由 于 苹果 坚持 不 与 BM-PC 机 
兼容 ， 因 此 微软 决定 在 IBM-PC 上 开发 出 图 形 用 户 界面 。1985 年 ， 微 软 
终于 完成 了 第 一 版 Windows 的 开发 ， 不 过 由 于 不 稳定 ， 缺 陷 多 ， 没 有 获 
得 成 功 。 直 到 1990 年 ，Windows ”3.0 才 为 微软 带 来 巨大 的 收益 。1995 
年 ，Windows 95 取 得 了 空前 的 成 功 ， 成 为 操作 系统 和 个 人 计算 机 发 展 史 
上 的 一 个 重要 里 程 碑 。 

微软 腾飞 的 这 几 年 ， 也 正 是 华 果 衰落 的 几 年 ， 苹 果 公 司 是 王 小 儿 过 
年 ， 一 年 不 如 一 年 。 苹 果 的 Mac 0OS 一 直 死 守 苹 果 计 算 机 市 场 ， 而 苹果 
计算 机 在 价格 、 应 用 程序 数量 上 远 不 如 IBM-PC 兼 容 机 ， 其 市 场 一 直 在 
下 滑 ， 最 终 逐 渐 误 沙 ， 只 能 守住 专业 市 场 。 其 间 ， 斯 卡 利 在 董事 会 的 文 
持 下 ， 将 乔布斯 赶 出 了 由 他 自己 创办 的 公司 ， 后 来 又 几经 换 帅 ， 还 是 无 
法 挽救 败局 。 

期 间 ， 苹 果 也 采用 了 知识 产权 的 方式 来 抵制 微软 。 苹 果 将 微软 告 
法 姓 ， 指 员 Windows 侵 犯 自己 的 操作 系统 。 在 法 姓 上 ， 和 人 微软 的 盖 次 指出 
苹果 的 窗口 式 图 形 界面 也 是 抄 施 乐 的 ， 和 赁 什么 你 能 去 施乐 拿 东 西 ， 我 就 
不 能 从 你 那 顺 东西 。 最 后 ， 法 姓 还 是 以 Windows 和 茸 果 的 操作 系统 虽然 
长 得 像 ， 但 不 是 一 个 东西 为 由 ， 驶 回 了 苹果 的 要 求 。 

1992 年 ， 著 名 作家 罗伯特 :元 伦 格 利 正式 将 微软 命名 为 “微软 各 
国 "。 借 助 强 大 的 市 场 优势 和 金钱 实力 ， 微 软 就 像 一 个 大 次 鱼 ， 运 用 从 
任 我 行 那里 学 到 的 “ 吸 星 大 法 ”， 将 许多 公司 创造 的 技术 纳入 自己 的 
Windows 中 ， 使 其 成 为 一 个 无 所 不 能 、 无 所 不 包 的 百宝箱 。 凡 是 微软 想 
打击 的 公司 ， 都 逃 不 出 它 的 魔掌 ， 如 Sun 公 司 、 网 景 公 司 等 。 一 直 等 到 
了 互联 网 时 代 ， 这 种 情况 才 有 所 好 转 。 

这 里 八卦 一 下 ， 微 软 树 敌 太 多 ， 法 律 纠纷 不 断 ， 不 过 一 直 没 有 给 公 
司 造 成 大 的 影响 ， 这 估计 和 羡 区 的 法 律 背 景 有 关系 。 新 次 在 哈佛 学 的 就 
是 法 律 专业 ， 盖 次 的 老 爸 在 退休 前 ， 是 Preston Gates & Ellis 律 师 事 务 所 
的 合伙 人 ， 这 家 律师 事务 所 后 来 更 名 为 K&L Gates， 是 全 美 十 大 律师 事 




















务 所 之 一 。 
Intel 打 败 Motorola 

摩托 罗拉 是 个 传奇 公司 ， 拥 有 大 公司 、 著 名 公司 、 杰 出 公司 之 类 称 
号 的 公司 很 多 ， 不 过 拥有 传奇 公司 称号 的 公司 却 很 少 。 

摩托 罗拉 原名 加 尔 文 制造 公司 ， 创 立 于 1928 年 ， 由 创始 人 之 一 的 保 
罗 . 加 尔 文 的 名 字 命 名 。 它 最 早 是 生产 汽车 里 的 收音 机 的 ， 摩 托 罗 拉 是 
这 种 收音 机 的 品牌 ， 由 于 这 个 品牌 深入 人 心 ， 因 此 摩托 罗拉 干脆 将 自己 
公司 的 名 字 改 成 了 这 个 名 字 。 这 种 现象 其 实 不 多 ， 与 之 类 似 的 还 有 一 家 
公司 ， 那 就 是 松下 ，Panasonic 是 松下 在 日 本 国外 的 品牌 ， 后 来 松下 将 公 
司 的 名 字 改 成 了 Panasonic。 

摩托 罗拉 除了 在 人 们 熟知 的 无 线 通信 和 领域 有 很 强 的 实力 外 ， 在 处 理 
器 领域 也 是 相当 的 有 竞争 力 。 在 前 几 代 处 理 器 中 ，Motorola 同 期 的 产品 
性 能 要 比 Pmntel 的 好 ，Macintosh 就 是 选用 Motorola 的 处 理 器 。 不 过 ， 由 于 
IBM 早 期 选择 了 Intel 的 处 理 器 ， 后 来 为 了 软件 的 兼容 性 ，IBM-PC 兼 容 机 
都 采用 Intel 的 处 理 占 。 随 着 苹果 的 衰败 ，Motorola 的 通用 处 理 器 也 相继 
衰败 。 苹 果 后 来 也 开始 采用 Intel 的 处 理 器 ，Motorola 彻 底 退 出 了 通用 处 
理 器 市 场 。 由 此 可 见 ， 一 开始 就 站 错 了 队 ， 对 后 面 影响 有 多 大 啊 。 


8.， Wintel 联 盟 ， 一 统 江 湖 


























随 着 IBM-PC 兼 容 机 的 流行 ，IBM-PC 成 为 行业 标准 ， 不 过 ，IBM 的 
PC 机 却 受到 了 巨大 的 冲击 ，IBM 在 PC 上 的 老大 位 置 后 来 也 被 惠普 给 抢 
走 了 。 到 后 来 ，PC 机 什么 人 都 可 以 装 ，PC 行 业 的 利润 率 也 逐年 下 滑 ， 
终于 ，IBM 于 2004 年 底 将 PC 业务 卖 给 了 联想 。 

在 整个 PC 行业 ， 有 了 两 家 公司 的 地 位 是 无 法 替代 的 ， 一 家 是 微软 ; 
另 一 家 是 Intel。 计 算 机 的 发 展 已 经 进入 了 处 理 器 时 代 和 软件 时 代 ， 这 个 
时 代 的 主导 权 落 在 了 对 集成 电路 有 着 深刻 认识 的 Intel， 和 对 软件 有 着 深 
刻 认 识 的 微软 手中 。 计 算 机 的 本 质 ， 就 在 于 其 可 编程 ， 软 件 的 执行 需要 
依赖 于 操作 系统 和 处 理 器 ，Intel 处 理 器 上 的 程序 不 能 在 ARM 中 执行 ， 


Windows 的 程序 也 不 能 在 Linux 下 执行 ， 为 了 使 PC 上 以 前 的 程序 能 继续 
运行 ， 就 必须 使 用 微软 的 操作 系统 和 Intel] 或 AMD (只 占 很 少 的 份额 〉 的 
处 理 器 。 

下 面 这 个 图 描述 了 应 用 程序 、 操 作 系统 、 处 理 喜 的 依赖 关系 ， 应 用 
程序 依赖 于 操作 系统 和 处 理 器 ， 操 作 系 统 依赖 于 处 理 器 。 





程序 依赖 性 


泉 面 操作 系统 各 面 处 理 器 是 两 个 相互 配合 并 且 极 欠 苋 争 的 领域 ， 
Microsoft 和 和 Intel 由 此 获得 高 额 利润 ， 它 们 同时 也 是 欧美 反 垄 断 法 的 宠 
J 

Wintel 联 盟 就 是 Windows 和 Intel 的 联盟 ， 这 个 联盟 在 业界 还 有 一 个 
定律 ， 叫 做 安 迪 :比尔 定律 : “What andy gives，bil takes away.” 无 论 安 迪 
给 什么 ， 比 尔 都 会 把 它 拿 

安 迪 天 是 Intel 的 前 CEO 安 迪 . 格 鲁 夫 ， 比 尔 束 是 微软 的 比尔 : 善 欧 ， 
作为 商业 同盟 ， 他 们 每 年 会 晤 两 三 次 ( 引 自 格 鲁 夫 的 《只 有 偏执 狂 才 能 
生存 》) 。 用 电脑 的 人 都 会 有 这 样 的 感觉 :电脑 买 来 没 多 久 ， 束 会 发 现 
慢 如 蜗牛 ， 又 要 考虑 硬件 升级 了 。 现 在 的 CPU 越 做 越 快 ， 存 储 越 做 越 
大 ， 但 是 操作 系统 、 应 用 软件 却 是 越 做 越 慢 ， 越 做 越 大 。 说 白 了 ， 商 家 
喜欢 消耗 品 ， 不 喜欢 耐用 品 。 





不 过 我 们 也 不 能 完全 把 予 头 指 癌 软件 公司 ， 现 在 软件 的 功能 需求 越 
来 越 多 ， 为 了 市 约 软 件 开 发 的 时 间 和 成 本 ,编程 语 言 越 做 越 蜗 级 ， 对 应 
看 效率 也 目 然 越 来 越 低 。 


9. Wintel 联 盟 真 的 无 坚 不 挫 吗 ? 


Wintel 联 盟 统 治 PC 江 湖 相 当 之 久 ， 很 多 处 理 占 公司 和 软件 公司 分 别 
问 IPmtel 和 微软 发 起 了 一 轮 又 一 轮 的 攻击 ， 不 过 都 是 败 多 胜 少 ， 直 到 最 近 
几 年 ， 情 况 才 有 所 好 转 。 

比较 有 名 的 一 家 挑战 公司 是 Sun 公 司 ，Sun 也 是 一 家 传奇 公司 ， 在 易 
盛 时 期 ，Sun 一 家 公司 的 产品 包含 了 整 条 IT 产业 链 : 从 处 理 器 ， 到 计算 
机 ， 到 网 络 ， 到 操作 系统 ， 到 编程 语言 ， 到 应 用 软件 一 条 龙 服务 ， 外 加 
股价 高 得 吓人 ， 颇 有 和气 吞 山河 之 势 。Sun 很 早 就 提出 了 “网 络 就 是 计算 
机 ”的 概念 ， 这 也 正 是 现在 火热 的 云 计算 的 思想 。Sun 挑 战 Wintel 联 盟 的 
一 大 利 占 束 是 大 名 鼎鼎 的 Java。 











Java 程 序 依赖 性 


Java 语 言 的 出 现 打破 了 江湖 上 持续 了 很 长 时 间 的 平静 ，Java 应 用 程 
序 通 过 Java 虚 拟 机 和 操作 系统 、 处 理 器 分 离开 来 ， 使 用 Java 编 写 的 应 用 
程序 不 再 依赖 于 某 个 具体 的 操作 系统 和 处 理 器 ，Java 程 序 不 只 可 在 x86 
上 运行 ， 也 可 以 在 ARM 等 处 理 器 上 运行 ， 只 要 装 一 个 这 一 平台 上 的 虚 
拟 机 束 可 以 了 ， 这 样 用 户 对 微软 的 操作 系统 和 Intel 的 处 理 器 束 没 有 依赖 
性 了 。Java 也 迅速 成 为 当前 的 主流 编程 语言 ， 虽 然 Java 是 如 此 的 流行 ， 
但 是 Sun 一 直 没 找到 通过 它 僵 利 的 方法 。 随 着 x86 处 理 器 性 能 的 逐渐 提 
升 ，Sun 赖 以 生存 的 工作 站 逐渐 被 淘汰 ，Sun 公 司 一 践 不 振 ， 被 Oracle 买 
a 

互联 网 的 发 展 ， 将 各 种 应 用 都 搬 到 了 网 上 ， 浏 览 器 逐渐 成 为 继 操 作 
系统 之 外 的 又 一 大 用 户 窗 口 。Google 等 公司 大 力 开 发 基于 互联 网 的 服务 
《软件 即 服务 ) ， 来 为 未 来 屏蔽 操作 系统 做 铺垫 。 到 现在 ， 人 们 在 计算 
机 上 使 用 的 大 部 分 功能 都 能 在 浏览 器 上 完成 。 例 如 ， 可 以 在 浏览 器 上 写 
作 、 看 电影 、 听 歌 、 玩 游戏 .………. 网 景 联合 创始 人 马克 : 安 德 条 (Marc 
Andreessen) 有 人 句 名 言 : 在 互联 网 的 光芒 下 ， 操 作 系 统 只 不 过 是 一 套 漏 
洞 重 重 的 设备 驱动 器 。 

不 管 是 x86 十 Windows 的 PC 机 ， 还 是 ARM 十 Linux 的 上 网 本 ， 叉 或 
是 ARM 十 Symbian/Android 的 手机 ， 都 可 以 使 用 相同 的 服务 ， 网 络 服务 
对 处 理 器 和 操作 系统 的 依赖 性 也 越 来 越 小 。 

















网 络 服务 的 依赖 性 


目前 手机 上 最 火 的 操作 系统 当 属 Google 的 Android，Google 收 购 了 
一 个 做 Linux 的 团队 ， 从 而 改造 成 自己 的 Android。 由 于 Android 使 用 Java 





语言 进行 应 用 软件 开发 ， 因 此 使 得 应 用 软件 具有 更 好 的 可 移植 性 ， 人 处理 
器 不 管 是 x86、ARM、MIPS 等 ， 均 可 以 执行 Android 应 用 程序 ，Android 
操作 系统 也 因此 大 受 处 理 器 厂商 和 应 用 软件 厂商 的 欢迎 。 而 处 理 器 领 
域 ， 最 近 风 头 正 盛 的 是 ARM， 微 软 的 蝎 面 操作 系统 也 提供 了 对 ARM 的 
文 持 。 


1.1.4 手机 一 一 装 在 口袋 的 计算 机 
1. 分 不 清 的 界限 


以 前 人 们 会 问 :“ 你 家 里 有 计算 机 没 ? ” 

现在 这 样 问 就 out 了 ， 应 该 问 :“ 你 口袋 里 有 几 个 计算 机 呀 ? ” 

现在 其 实 已 经 很 难 区 分 手机 和 计算 机 有 什么 区 别 了 ， 对 于 很 多 手机 
来 说 ，PC 机 能 做 的 ， 它 能 做 ，PC 机 不 能 做 的 ， 它 也 能 做 ， 高 端 手机 的 


性 能 已 经 不 亚 于 当年 的 奔 3、 赛 扬 了 。 
下 面 这 张 图 摘 述 了 各 种 各 样 的 终端 ， 可 能 他 们 之 间 的 区 别 惑 在 于 大 
A 
性 能 更 高 屏幕 更 大 
电 面 计算 机 
上 网 本 


nn 









更 便携 ” 功 耗 更 低 
各 种 各 样 的 终端 
桌面 计算 机 : 一 台 体 验 章 越 为所欲为 的 电脑 
笔记 本 : 一 台 便 于 移动 ， 性 能 较 强 的 电脑 
上 网 本 : 一 台 便 于 移动 ， 价 格 较 低 的 电脑 
手机 : 一 合 随身 携带 ， 永 远 在 线 的 电脑 


2 大同 大 


一 身 风衣 ， 一 队 马 仔 ， 加 上 一 个 大 哥 大 ， 是 20 世 纪 90 年 代 港剧 中 大 
哥 的 经 典 造型 。 





大 哥 大 
大 哥 大 是 第 一 代 移 动 通信 系统 的 终端 设备 ， 几 乎 被 摩托 罗拉 公司 


斯 。 

3. 手机 
诡 基 亚 以 小 博大 

20 世 纪 70 年 代 后 ， 随 着 数字 信和 号 处 理 技术 和 半导体 技术 的 发 展 ， 
于 数字 电路 和 信和 号 处 理 的 第 二 代 移 动 通信 渐渐 序 出 了 水 面 。 
代 移 动 通信 中 能 够 赶 超 美国 ， 早 在 1982 年 ， 欧 洲 邮 电 管 理 委 员 会 
(European Conference of Postal and Telecommunications 
Administrations) 束 着 手 制定 新 一 代 的 移动 通信 标准 Groupe Special 
Mobile， 简 称 GSM。 第 一 个 投入 商业 运行 的 GSM 移 动 通信 和 网络， 其 局 
站 设备 供应 商 是 瑞典 的 爱立信 ， 终 端 设 备 的 供应 商 是 分 兰 的 诡 基 亚 ， 手 
机 是 这 个 时 代 的 主要 通信 终端 








在 模拟 时 代 ， 话 音质 量 是 手机 好 坏 几 乎 唯一 的 标准 ， 摩 托 多 拉 无 疑 
在 此 方面 占有 优势 。 而 到 了 数字 时 代 ， 不 同 手机 的 话音 质量 相差 不 像 以 
前 那么 大 ， 此 时 手机 的 功能 束 变 得 非常 重要 了 ， 再 到 后 来 手机 的 外 观 也 
变 得 重要 起 来 。 摩 托 多 拉 由 于 思维 的 定式 ， 在 早期 开发 数字 手机 时 ， 仍 
然 以 话音 质量 为 核心 ， 功 能 和 外 观 的 设计 在 同行 中 常常 慢 一 个 节拍 。 而 
诡 基 亚 、 三 星 等 手机 很 早 就 强调 手机 的 功能 、 使 用 方便 和 外 观 ， 目 然 也 
就 超越 了 摩托 罗拉 。 



















电话 
媒体 播放 机 和 了 人 照相 机 
游戏 机 收录 音 机 
导航 仪 闪存 
手电 简 化 站 镇 
手机 ， 一 把 电子 瑞士 军刀 
iPhone 与 移动 互联 网 


乔布斯 的 故事 还 在 继续 。 

乔布斯 是 硅谷 最 传奇 的 一 位 。 年 轻 的 乔布斯 行为 侦 激 ， 根 本 是 一 个 
不 能 与 之 共事 的 人 ， 他 被 日 己 请 来 的 斯 卡 利 在 董事 会 的 文 持 下 赶 出 了 荚 
果 。 

乔布斯 离开 苹果 后 ， 创 立 了 一 家 计算 机 公司 NeXT， 不 过 没有 翻 起 
大 当 。 之 后 ， 乔 布 斯 买 下 了 好 汪 坞 著名 导演 、 制 片 人 乔治 : 户 卡 斯 〈 导 
演 过 《星球 大 战 》) 的 动画 制作 组 ， 并 将 其 命名 为 Pixar〈 皮 死 斯 ) 公 
司 ， 皮 克 斯 公司 后 来 制作 了 一 系列 经 典 的 动画 片 ， 如 《玩具 总 动员 》、 
《机 器 人 忌 动 员 》 等 ， 扩 克 斯 上 市 后 ， 春 布 斯 赚 到 的 钱 比 从 苹果 得 到 的 


还 多 





这 个 时 候 的 华 果 已 经 是 摇摇欲坠 ， 几 任 CEO 都 无 力 回 天 ， 没 办 法 ， 
董事 会 只 得 把 乔布斯 请 回来 ， 死 马 当 活 马 医 。 被 资方 赶 出 公司 的 创始 人 
不 少 ， 但 是 又 被 请 回来 的 ， 就 几乎 没有 了 ， 不 过 乔布斯 还 是 回来 的 ， 因 
为 苹果 束 像 他 的 孩子 一 样 。 

回 到 华 果 的 乔布斯 历经 沧桑 ， 也 更 成 熟 。 乔 布 斯 的 回归 重新 燃 谋 了 
苹果 的 创新 小 宇 害 。 苹 果 和 凭借 着 iPod、iTunes、iPhone、App Store 等 一 
系列 产品 和 商业 模式 创新 ， 又 一 次 站 了 起 来 ， 而 且 站 得 更 高 。 

iPhone 是 手机 的 经 典 之 作 ， 在 iPhone 出 现 之 前 ， 从 来 没有 人 想 过 ， 
原来 手机 还 可 以 这 样 玩 。iPhone 之 火 ， 不 需要 多 说 ， 束 连 释 道 心 和 尚 也 
使 用 iPhone。 

iPhone 模 糊 了 手机 和 计算 机 的 界限 ， 并 引发 了 移动 互联 网 之 热 ， 继 
苹果 的 App Store 之 后 ，Google、 诺 基 亚 、 中 移动 等 大 的 手机 厂商 、 信 息 
服务 商 也 都 提供 了 自己 的 网 上 商店 。 


4. 山寨 机 


茶 日 部 门 开会 ， 领 导 在 上 面 吐 沫 模 尺 ， 轻 舞 飞 扬 ， 我 们 在 下 面 正 襟 
危 坐 ， 展 现 出 移 情 式 倾听 的 样子 。 突 然 ， 一 兄 第 的 手机 爆 咽 :“ 死 了 部 
要 爱 ， 不 淋 滴 尽 致 不 痛快 .……” 巨 大 的 声 啊 直 压 领 导 的 麦 元 风 ， 引 来 大 
家 一 阵 狂笑， 从 此 以 后 ， 这 位 兄弟 再 也 不 敢 用 山寨 低音 炮 手机 了 。 
山寨 机 创意 一 : 明 修 栈道 ， 蜡 上 度 陈 仓 

凌 凌 滚 : “你 看 到 我 手 上 拿 的 这 个 东西 了 吧 ， 表 面 上 看 它 是 一 个 大 
哥 大 电话 ， 但 是 你 看 这 里 有 一 层 金属 网 膜 ， 实 际 上 ， 它 是 一 个 刮 衣 刀 ， 
这 样 在 执行 任务 的 时 候 ， 也 可 以 神 不 知 鬼 不 党 地 刮 明子 。 人 至 于 这 个 表面 
上 看 是 一 个 刮 明 刀 ， 其 实 呢 ， 它 是 一 个 吹风 机 。” 

这 段 经 典 的 台词 用 来 描述 山寨 机 的 创意 那 是 相当 的 合适 。 




















可 表面 上 是 跑车 ， 实 际 上 是 个 手机 
山寨 机 创意 二 : 要 么 做 绝 





超 雷 人 的 喇叭 ， 绝 对 让 你 惊天 动 地 
山 守 机 的 功能 通 和 比较 夸张 ， 像 足 了 无 厘 头 的 风格 ， 不 过 如 果 说 山 





寨 机 的 功能 只 是 个 嗪 头 ， 那 也 不 见得 ， 黑 格 尔 说 过 :“ 存 在 就 是 合理 
的 ”， 这 些 山寨 机 在 某 些 场合 还 真是 能 起 上 大 用 途 ， 如 在 钢铁 三 工作 ， 
环境 非常 吵 ， 一 般 的 手机 铃声 根本 束 听 不 见 ， 这 时 配 上 上 面 这 亚 手 机 ， 
就 是 拉 风 与 实在 并 存 了 。 
山寨 机 创意 三 : 包罗 万 象 

达 闻 西 :“ 我 费 了 一 生 经 历 集合 了 十 种 杀人 武器 于 一 身 一 一 要 你 命 





三 千 ! 西瓜 刀 、 单 车 链 、 火 药 、 硫 酸 、 毒 药 、 手 枪 、 手 榴弹 、 杀 虫 剂 ， 
每 样 都 能 独当一面 ， 现 在 集中 在 一 起 ， 看 你 怕 不 怕 。” 

集成 很 多 意 想不到 的 功能 ， 也 是 山寨 机 常 有 的 创意 ， 如 专 为 压 寨 夫 
人 “喜欢 山寨 机 的 女士 ) 设计 的 功能 : 

防 狼 器 ， 天 线 能 在 瞬间 释放 强 电流 〈 慎 用 ， 慎 用 ， 可 不 能 把 灰太狼 
当成 大 灰 狼 了) 。 

化 妆 镜 ， 凌 凌 漆 说 过 : “作为 一 名 情报 工作 者 ， 形 象 很 重要 。?” 作 为 
一 名 女士 ， 形 象 也 很 重要 ， 化 妆 镜 手机 ， 让 你 神 不 知 鬼 不 觉 的 化 妆 ， 实 
在 是 后 家 旅行 之 必 备 展 机 。 








点 烟 的 手机 





验 钞 机 手书 


大 腕 :山寨 机 版 〈 引 自 网 络 ) : 
一 定 得 选 最 好 的 硬件 芯片 

雇 法 国 设计 师 

做 就 得 做 最 高 档 的 手机 

平台 直接 用 MTK 
屏幕 最 小 也 得 3.0 的 


什么 智能 呀 ， 电 视 功 能 呀 ， 双 卡 同时 符 机 呀 
能 给 它 装 的 全 给 它 装 上 

前 面 一 个 摄像 头 

后 面 一 个 摄像 头 

手机 一 开机 

走 管 有 事 儿 没事 儿 都 得 跟 您 说 
“ 腾 事 啊 ? ” 

一 口 地 道 的 广东 普通 话 
倍 儿 有 面子 

手机 里 再 建 一 块 读 卡 此 

卡 用 索尼 的 

一 个 G 整 几 十 块 


再 装 一 特大 电池 

365 天 待机 

就 是 一 个 字 儿 

来 

接 个 电话 就 得 说 它 一 个 小 时 才 行 
周围 的 人 不 是 金立 就 是 CECT 
您 要 是 拿 一 外 国 机 器 

都 不 好 意思 跟 人 打招呼 

您 说 这 样 的 手机 

一 部 得 卖 多 少 钱 ? 

我 觉得 怎么 着 也 得 两 千 块 钱 吧 。 
两 千 块 ?你 打劫 啊 ? 

一 千 块 起 

您 别 嫌 便 宜 

还 必须 打折 

你 得 研究 客户 的 购物 心理 

买 手机 连 一 千 块 钱 都 不 愿意 掏 的 主 儿 
根本 不 怕 你 便宜 

什么 叫 现代 人 士 你 知道 吗 ? 
现代 人 士 就 是 买 东 西 就 买 最 便宜 的 
不 买 最 好 的 

所 以 我 们 做 手机 的 口号 就 是 
“不 但 要 好 ， 还 要 便宜 ! ” 


1.1.5 无 处 不 在 的 计算 机 























1 
A 5 全 学 韦 i  1 Aer 
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3 f 
疙 口袋 里 的 计算 机 LS 计算 机 or 机 器 人 ? 


计算 机 无 处 不 在 

随 着 集成 电路 的 发 展 ， 计 算 机 的 核心 便 件 已 经 被 集成 在 一 块 已 
上 ， 这 块 已 片 就 是 处 理 器 。 基 本 上 来 说 ， 只 要 是 含有 处 理 器 的 设备 ， 通 
过 编程 实现 各 种 功能 的 ， 我 们 都 可 以 看 成 是 计算 机 。 

汽车 是 机 械 和 电子 的 混合 物 ， 含 有 大 量 的 处 理 器 ， 越 是 高 档 的 汽 
车 ， 含 有 的 处 理 器 也 越 多 ， 汽 车 也 被 称 为 奔跑 中 的 计算 机 。 

游戏 机 、 机 顶 盒 等 设备 ， 从 以 前 单独 的 功能 ， 逐 步 过渡 到 现在 全 能 
型 的 ， 既 能 玩 游戏 ， 又 能 看 电影 ， 叉 能 上 网 ， 健 然 束 是 一 台 计 算 机 。 


1.1.6 ”计算机 的 来 世 








SS 


这 个 世界 没有 超人 ， 只 有 科技 。 
《未 来 警察 》 台 词 
旧时 王 谢 党 前 燕 ， 飞 入 寻常 百姓 家 。 
一 一 刘 秃 锡 
个 民族 有 一 些 关 注 天 空 的 人 ， 他 们 才 有 和 希望 。 
黑 格 尔 
影视 作品 来 源 于 生活 ， 也 同时 表现 生活 。 在 好 莱 坞 的 科幻 电影 中 ， 
计算 机 〈Computer) 和 机 器 人 (Robot) 实际 上 是 个 等 义 词 ， 如 《终结 
者 》 系 列 。 
人 工 知 能 让 计算 机 更 像 人 ， 于 是 也 就 产生 了 机 器 人 。 埃 斯 特 罗 . 特 
勒 说 , “人工 智能 是 一 门 新 兴 的 学 科 ， 所 研究 的 是 如 何 使 机 器 能 够 做 像 
它 在 电影 中 所 做 的 事情 。?” 说 白 了 ， 也 了 是 让 计算 机 能 像 人 一 样 能 听 、 









































《终结 者 》 剧 照 


人 和 机 器 人 人， 大脑 和 计算 机 ， 其 实 也 比较 类 似 ， 下 面 是 它们 的 类 
比 : 





生物 体 和 机 器 的 对 比 
外 界 刺 激 经 过 和信 体 的 感觉 器 官 进 入 大 脑 进行 分 析 ， 然 后 大 脑 控制 关 





节 和 肌肉 执行 相应 的 动作 。 对 于 机 器 来 说 ， 机 絮 的 大 脑 就 是 计算 机 ， 机 
费 的 感觉 器 官 束 是 传 感 副 ， 机 器 的 执行 器 官 束 是 执行 嚣 。 

日 本 的 机 器 人 研究 一 直 处 于 世界 前 列 ， 日 本 很 多 大 公司 都 将 机 器 人 
作为 未 来 的 战略 重点 。 日 本 人 有 着 强 烈 的 机 器 人 情结 ，1963 年 ， 由 手 埋 
治虫 制作 的 动画 《 铁 臂 阿 童 木 》 开 始 在 电视 台 放 映 ， 这 是 日 本 第 一 部 机 
船 人 动漫 ， 这 部 动漫 影响 了 几 代 日 本 人 ， 也 更 定 了 日 本 的 机 器 人 情结 。 
再 加 上 日 本 资源 匮乏 ， 社 会 老龄 化 现象 严重 ， 从 经 济 的 角度 考虑 ， 也 对 
机 器 人 有 着 强烈 的 依赖 。 











机 器 人 的 研发 任 重 而 道 远 ，2011 年 日 本 因 地 震 而 导致 的 核电 站 核 泄 
漏 ， 如 果 有 机 器 人 去 修理 ， 就 不 会 让 核 辐 射 扩 散 得 这 人 么 严重 。 
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手 场 治虫 D =J 






La 
作者 在 日 本 京都 铁路 口 拍 摄 的 阿 章 木 像 





计算 机 历史 总 结 : 

长 江 后 浪 推 前 浪 ， 一 代 新 人 胜 旧 入 。 

江山 代 有 才 人 出 ， 各 领 风骚 三 五 年 。 

每 一 次 时 代 的 变革 ， 总 是 新 公司 胜出 ， 那 些 拥 有 强大 的 研发 实力 、 
共有 强大 的 资金 文 持 的 传统 大 公司 反而 反应 迟钝 ， 坐 失 民 机 。“ 利 令 智 
置 ”绝对 不 是 用 来 形容 苇 材 的 ， 在 大 公司 说 话 比 较 人 硬朗 的 人 都 是 当前 时 
代 的 既得 利益 者 ， 他 们 当年 也 非常 有 远见 ， 不 过 现在 ， 他 们 从 内 心里 不 
愿意 改变 当下 的 状态 ， 对 变化 反应 不 够 坚决 ， 时 间 判 断 滞后 ， 于 是 终于 
被 新 时 代 所 抛 奔 。 














物 以 类 聚 ， 人 以 群 分 
不 分 类 ， 就 不 利于 管理 ， 人 类 由 于 具有 上 归 类 的 能 力 ， 才 不 会 被 周转 
环境 的 复杂 性 所 压 夫 。 根 据 计 算 机 的 应 用 ， 能 将 计算 机 分 成 3 个 类 别 : 
1. 服务 器 
2. PC 机 (Personal Computer， 个 人 计算 机 〉 ， 也 就 是 我 们 俗称 的 
电脑 
3.， 舱 入 式 计算 机 


计算 机 


Client Server 





计算 机 大 家 庭 

我 们 使 用 Google 的 搜索 引擎 时 ， 搜 索 过 程 是 在 Google 的 服务 器 上 完 
成 的 ， 再 将 结果 反馈 给 我 们 的 PC 机 ， 这 就 是 一 种 Client/Server 应 用 。 

PC 机 和 服务 器 从 本 质 上 没有 多 少 不 同 ， 根 据 应 用 的 不 同 ， 部 件 和 
性 能 会 略 有 区 别 。 家 用 的 PC 机 ， 最 常用 的 功能 就 是 看 电影 和 玩 游戏 ， 
因此 多 媒体 部 件 ， 如 显卡 、 显 示 器 、 音 箱 等 会 比较 齐全 ， 服 务 器 要 给 很 
多 的 用 户 提 供 服 务 ， 通 常会 有 这 些 特点 : 

(1) 高 可 靠 性 ， 少 出 故障 ，7x24 小 时 业务 不 中 断 。 

(2) 高 可 扩展 性 ， 随 着 用 户 数 的 增加 ， 服 务 器 也 能 进行 相应 的 扩 





展 ， 如 增加 硬盘 、 增 加 内 存 等 。 

(3) 高 否 吐 量 ， 一 台 服 务 器 通常 要 为 多 个 用 户 进 行 服务 ， 单 位 时 
间 内 能 处 理 的 请 求 数目 代表 了 服务 器 的 性 能 。 

仍 入 式 计算 机 专注 于 某 个 特定 的 领域 ， 如 通信 、 工 业 控 制 等 ， 形 态 
也 千差万别 。 不 同 的 领域 有 不 同 的 需求 ， 总 体 来 说 ， 低 功 耗 、 低 成 本 是 
必须 的 。 有 些 领域 对 可 靠 性 要 求 非常 高 (如 军事 、 安 全 等 领域 )， 而 有 
些 领域 对 功 耗 要 求 非常 高 (如 手机 等 )。 

在 性 能 方面 ， 一 般 看 来 ， 服 务 器 性 能 要 比 PC 机 强 ，PC 机 的 性 能 要 
比 一 般 的 舱 入 式 计 算 机 强 ， 不 过 它们 并 没有 太 严 格 的 界限 。 计 算 机 的 性 
能 一 直 都 在 飞速 发 展 ， 几 年 前 好 几 箱 服务 器 做 的 工作 今天 一 台 PC 机 就 
可 以 完成 ， 现 在 的 手机 的 性 能 也 不 亚 于 几 年 前 的 PC 机 。 上 昨天 的 服务 
器 ， 就 是 今天 的 PC 机 ， 也 是 明天 的 鞭 入 式 计算 机 。 





昨天 今天 明天 


Eu Fy 
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服务 器 、PC 机 、 髓 入 式 计算 机 的 关系 


1.3 PC 机 结构 探秘 


当 我 们 把 计算 机 和 人 做 类 比 时 ， 硬 件 就 相当 于 人 的 号 体 ， 软 件 就 相 
当 于 人 的 三 魂 七 叫 “ 中 国 古 代 的 次 法) ， 或 者 灵魂 (西方 宗教 的 说 
法 ) ， 或 者 思维 《现代 的 说 法 ) 。 

同人 一 样 ， 计 算 机 也 是 由 很 多 部 分 组 成 ， 我 们 先 来 解剖 一 部 PC 
机 ， 看 看 它 的 内 部 构造 ， 以 及 各 部 分 之 间 的 连接 方式 ， 下 页 图 是 茶 PC 
机 的 解 训 图 。 

下 面 我 们 来 分 别 介 绍 。 


1.3.1 处 理 器 一 一 一 上 里 奔腾 的 心 


计算 机 所 完成 的 任务 是 靠 一 条 一 条 的 指令 来 完成 的 ， 指 令 束 在 处 理 
器 中 执行 ， 计 算 机 其 他 的 各 个 部 分 都 是 为 了 配合 处 理 器 而 存在 的 。 处 理 
器 也 称 CPU (Central Processing Unit， 中 央 处 理 器 〉， 所 有 从 外 部 输入 
的 命令 ， 都 是 在 处 理 器 里 面 进行 处 理 的 ， 所 有 我 们 看 到 的 文字 、 声 音 、 
图 像 ， 都 是 经 处 理 器 处 理 过 后 ， 再 表现 出 来 的 。 





内 存 总 线 内 存 条 
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USB 


从 也 标 
和 键盘 


兼容 传统 PCI 设 备 





其 他 扩展 卡 


PC 机 结构 图 
Intel 的 Marcian E. Hoff 〈 也 称 为 Ted Hoff) 做 出 了 世界 上 第 一 款 处 理 
器 4004， 它 由 2300 个 晶体 管 组 成 ， 运 行 在 108KHz， 位 宽 4bit。Hoff 也 因 
此 于 1988 年 获得 计算 机 先驱 奖 。 





Marcian E. Hoff 

















酷似 蜗 肉 的 4004 

从 1991 年 开始 ，Pntel 开 展 了 一 项 大 型 的 商业 推广 计划 ， 铺 天 盖 地 
的 “Intel Inside” 广 告 让 人 们 逐渐 觉得 处 理 器 就 是 计算 机 的 代名词 ， 在 那 
个 时 候 ， 当 一 个 人 有 了 一 台电 脑 ， 他 会 对 别人 说 ， 我 有 一 台 奔 3 电脑 或 
奔 4 电 脑 ， 而 不 会 说 我 有 一 台 IBM 电 脑 或 惠普 电脑 。 现 在 ， 随 着 处 理 器 
品牌 太 杂 ， 人 们 反而 不 再 说 我 有 一 台 酷 害 电 脑 或 奔腾 电脑 了 ， 不 
过 “Intel Inside” 的 广告 标签 还 是 在 电脑 上 醒目 可 见 。 





1.3.2 ”存储 器 一 一 大 肝 能 容 ， 容 天 下 难 容 之 事 
1. 存储 器 技术 


人 脑 可 以 既 做 运算 ， 又 存储 数据 ， 而 在 计算 机 中 ， 计 算 由 处 理 器 完 
成 ， 数 据 存储 ， 则 由 存储 器 完成 。 
下 图 是 计算 机 的 存储 结构 : 
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存储 单元 的 层次 结构 

CPU 在 做 计算 时 ， 征 从 寄存 器 中 读数 据 的 ， 不 过 寄存 器 的 容量 实在 
古 太 小 ， 几 乎 无 时 无 刻 不 需 要 从 内 存 中 读 取 数据 ， 为 了 减少 从 内 存 中 读 
写 数 据 的 次 数 ， 在 CPU 内 部 做 了 一 个 缓存 〈cache) ， 避 免 频 楷 读 写 。 

内 存 的 记忆 力 虽 好 但 是 记得 的 事情 也 还 不 多 ， 最 重要 的 一 点 是 ， 内 
存 睡 一 觉 〈 掉 电 后 ) 什么 东西 都 万 了 ， 属 于 易 失 性 存储 介质 。 所 以 数据 
都 要 存储 在 一 个 容量 大 ， 且 永久 存储 的 设备 上 ， 这 个 设备 就 是 硬盘 。 还 
征 便 盘 好 ， 默 默 无 邮 的 工作 ， 什 么 都 默默 的 记 下 ， 邱 电 了 也 不 会 丢失 数 
据 ， 不 过 由 于 速度 较 慢 ， 如 有 果 直 接 和 处 理 器 打交道 ， 那 处 理 器 就 要 等 到 
芮 化 菜 都 头 了 。 从 这 个 角度 来 说 ， 内 存 是 处 理 器 和 硬盘 之 间 的 缓存 。 

对 于 计算 机 来 说 ，CPU 是 核心 ， 不 过 对 于 人 们 来 说 ， 人 硬盘 才 是 核 
心 ， 因 为 所 有 的 数字 信息 都 记录 在 上 面 ， 其 他 的 器 件 随 便 更 换 都 没有 关 
系 ， 但 人 硬盘 却 不 能 随便 更 换 ， 起 码 是 不 能 让 别人 随便 更 换 。 网 络 上 有 名 
名 言 :“ 男 人 一 定 要 会 修 电 脑 ， 曾 经 有 个 人 不 会 修 目 己 的 电脑 ， 后 来 的 
事 大 家 都 知道 了 .…...” 

便 盘 空间 虽 大 ， 但 是 在 这 个 信息 焊 炸 的 年 代 ， 什 么 信息 都 存放 在 本 
地 硬盘 是 不 可 能 的 ， 还 好 互联 网 的 发 展 使 得 我 们 可 以 轻松 的 访问 网 络 ， 
获取 想 要 的 信息 。 大 量 的 信息 存储 在 网 络 上 其 他 计算 机 的 硬盘 上 ， 我 们 
只 需要 将 别人 的 数据 传输 过 来 就 可 以 了 ， 所 以 说 传输 和 存储 ， 本 喘 束 是 






































一 体 的 ， 存 储 是 信息 在 时 间 上 的 传递 ， 传 输 是 信息 在 空间 上 的 传递 。 

硬盘 安 在 电 脑 上 ， 是 不 能 随便 移动 的 ， 不 同 的 电脑 间 要 交换 点 数 
据 ， 在 不 方便 使 用 网 络 的 条 件 下 ， 就 需要 可 移动 的 存储 介质 ， 如 光盘 、 
U 盘 、SD 卡 等 。 

光 、 电 、 磁 等 特性 可 以 作为 存储 介质 ， 光 盘 使 用 光 特 性 ， 内 存 和 U 
盘 使 用 电 特 性 ， 现 在 硬盘 的 存储 介质 还 是 以 磁盘 为 主 ， 使 用 磁 特 性 。 磁 
盘 先 驱 者 之 一 Al Hoagland 曾 经 调侃 到 : “我 认为 ， 硅 谷 的 名 字 叫 错 了 ， 
如 果 你 回顾 近 十 年 来 产品 的 收入 情况 ， 磁 盘 比 硅 产 品 收 入 要 多 得 多 ， 
此 应 该 把 这 个 地 方 改名 为 氧化 铁 谷 。” 不 过 ， 现 在 随 着 闪存 容量 的 不 断 
加 大 ， 也 有 慢 慢 蔡 代 磁盘 的 趋势 ， 闪 存 完全 采用 电 的 访问 方式 ， 比 人 厂 盘 
机 械 的 访问 方式 要 快 很 多 。 手 机 、 援 像 机 等 消费 类 电子 产品 中 已 经 集成 
了 中 等 容量 的 内 存 。 当 然 ， 单 位 容量 下 闪存 的 成 本 还 是 远 高 于 硬盘 ， 厂 
盘 式 硬盘 仍然 会 存在 很 长 一 段 时 间 。 


2. 存储 器 公司 


计算 机 发 明之 后 ， 市 场 上 对 存储 器 需求 很 大 ， 华 人 王 安 发 明了 磁 心 
存储 器 ， 王 安 电脑 公司 一 度 办 得 有 声 有 人 色 。 

现在 大 家 都 知道 Intel 是 做 处 理 嚣 的， 而 且 第 一 个 处 理 器 也 是 它 发 明 
的 ， 不 过 Intel 是 以 存储 器 起 家 的 ，1969 年 ，Intel 首 创 了 全 球 第 一 颗 集 成 
电路 存储 心 片 ， 宣 告 了 老 一 代 磁 已 存储 占 的 寿 终 正 宴 。 在 20 世 纪 70、80 
年 代 ，Intel 是 排名 第 一 的 存储 器 公司 ， 处 理 器 只 是 它 不 受 重视 的 小 业 
务 ， 而 且 一 直 被 Motorola 压 制 着 。 

由 于 日 本 是 一 个 资源 匮乏 的 国家 ， 因 此 特别 注重 知识 经 济 的 发 展 ， 
半导体 是 国家 发 展 战略 的 重要 部 分 。 日 本 在 70 年 代 中 期 开始 布局 半导体 
产业 ， 瞄 准 了 相对 技术 含量 不 是 那么 高 的 存储 器 产品 ， 日 本 善于 大 规模 
生产 出 高 质量 的 DRAM (内 存 条 使 用 DRAM 颗 粒 ) ， 伴 随 独 大 型 计算 机 
市 场 的 成 长 ， 日 本 的 DRAM 乘 势 凯 起 ， 到 了 1986 年 ， 日 本 存储 器 产品 的 
市 场 占 有 率 上 升 到 65% ， 美 国 则 下 降 到 30% ，Intel 公 司 在 存储 器 上 人 花费 



































大 量 的 研发 费用 ， 但 是 营业 额 所 占 的 比例 却 逐 年 下 滑 ， 此 时 Intel 面 临 成 
芯 以 来 最 大 的 转型 压力 。 某 一 日 风 十 如此， 英特尔 的 3 位 创始 人 面 对 着 
不 景气 的 赤字 ， 坐 困 愁 城 ， 开 始 了 他 们 的 谈话 :“ 如 果 来 一 个 新 的 CEO 
的 话 ， 他 会 做 什么 ?”， “把 我 们 开除 ， 并 停止 内 存 生 产 线 。” 于 是 他 们 
走出 办 公 室 ， 停 掉 了 内 存 生 产 线 ， 从 此 专攻 处 理 器 ， 终 于 成 就 了 半导体 
领域 的 王者 。 

上 世纪 80 年 代 的 存储 器 市 场 是 日 本 人 的 市 场 ， 不 过 到 了 90 年 代 ， 
PC 市 场 异常 火爆 ， 而 PC 市 场 并 不 需要 这 么 高 质量 的 DRAM, 日 本 公司 
没有 反应 过 来 ， 韩 国 和 台湾 公司 乘势 生产 物美 价 廉 的 DRAM， 韩 国 迅速 
成 为 最 大 的 存储 器 生产 国家 。 此 后 ， 韩 、 台 在 DRAM 领 域 的 相继 崛起 ， 
美国 在 处 理 器 领域 称霸 ， 导 致 日 本 在 半导体 行业 全 面 衰 退 。 

在 处 理 器 行业 ，Intel 是 老大 ， 在 半导体 存储 器 行业 ， 三 星 半导体 是 
老大 。 三 星 是 最 大 的 DRAM 和 闪存 生产 公司 。 

三 星 是 个 巨 无 霸 ， 正 如 台积电 董事 长 张 忠 谋 说 的 :;“ 三 星 ， 是 所 有 
人 的 对 手 ， 三 星 几 乎 是 什么 电子 产品 都 要 做 。” 三 星 就 好 像 变 形 金刚 ， 
身上 随便 一 个 零件 拆 下 来 ， 都 可 以 和 一 家 著名 公司 抗衡 。 手 机 可 以 和 诺 
基 亚 、 苹 果 抗 衡 ， 显 示 器 没有 公司 能 抗衡 ， 存 储 器 没有 对 手 能 抗衡 .….…. 

三 星 的 成 绩 离 不 开 它 的 执 闭 ， 一 个 公司 做 存储 器 做 了 10 年 亏损 还 在 
做 ， 这 家 公司 就 是 三 星 。 我 们 不 能 只 见 贼 吃 肉 ， 不 见 贼 挨打 ， 三 星 屡 战 
屡 败 ， 屡 败 屡 战 ， 终 于 成 就 了 今天 的 巨 无 霸 。 


1.3.3 主板 与 芯片 组 一 架 起 沟通 的 桥梁 


计算 机 内 部 这 么 多 部 件 ， 总 要 有 个 板子 来 承载 ， 这 个 板子 就 是 主 
板 。 主 板 提 供 了 各 种 各 样 的 接口 ，CPU、 显 卡 、 声 卡 、 硬 盘 、 光 了 驱 、 
PCI-E 插 权 、USB 插 模 等 部 件 都 接 在 上 面 。 除 了 起 物理 连接 作用 外 ， 主 
板 上 还 有 两 医 重 要 的 心 片 ， 俗 称 北桥 和 南 桥 心 片 ， 统 称 为 芯片 组 ， 它 们 
的 主要 工作 ， 就 是 负责 人 处理 器 和 其 他 部 件 间 的 通信 。 
































桥 ， 起 连接 作用 ， 负 责 通信 








上 北 下 南 ， 和 处 理 器 相 邻 的 桥 称 为 北桥 ， 北 桥 下 面 的 桥 称 为 南 桥 。 
南 桥 和 北桥 有 明确 的 分 工 ， 北 桥 负 贡 处 理 喜 与 那些 需要 较 高 通信 看 宽 部 
件 间 的 通信 ， 主 要 是 存储 器 和 显卡 ， 由 于 Intel Core 这 处 理 器 中 集成 了 内 
存 控制 器 ， 因 此 内 存 直接 接 在 了 处 理 器 上 ， 很 多 处 理 器 没有 内 存 控制 
器， 那么 北桥 蕊 片 则 会 提供 内 存 控 制 器 连接 内 存 。 

南 桥 负 责 处 理 器 与 较 低 速度 部 件 间 的 接口 ， 通 党 连接 各 种 输入 输出 
设备 ， 如 USB、 人 硬盘 等 。 

计算 机 的 性 能 主要 来 源 于 CPU、 内 存 和 显卡 的 性 能 ， 但 是 ， 如 果 没 
有 适合 的 主板 和 芯片 组 ， 处 理 器 与 其 他 部 件 的 数据 通信 和 就 会 受到 限制 ， 
影响 处 理 器 的 运行 速度 ， 就 好 比 再 好 的 跑车 ， 在 乡间 小 路 上 也 是 跑 不快 
的 。 蕊 片 组 和 主板 一 般 是 针对 某 一 特定 处 理 器 或 菜 一 处 理 器 家 族 进 行 设 
计 的 。 其 他 部 件 ， 如 显卡 、 硬 盘 、 键 盘 、 鼠 标 等 ， 则 相对 较 独 立 ， 只 要 
符合 接口 标准 就 可 以 了 。 

近 几 年 来 ， 处 理 器 中 的 晶体 管 密度 有 了 很 大 的 提升 ， 以 至 于 完全 可 
以 将 芯片 组 的 功能 集成 到 处 理 器 内 部 ， 这 样 主板 的 面积 就 减 小 了 ， 计 算 
机 更 小 型 化 ， 封 装 成 本 也 降低 了 。 


1.3.4 输入 设备 一 一 五 觉 














觉 、 味 沉 、 触 党、 嗅觉 ) 来 接受 外 界 的 信息 ， 





1. 键盘 


现在 用 的 QWERTY 键 盘 最 早 来 自 于 打字 机 ， 专 家 们 发 现 ， 
QWERTY 键 盘 的 效率 并 不 是 最 高 ， 又 提出 了 一 套 DVORAK 的 键盘 。 但 
是 很 多 东西 ， 人 们 一 旦 熟悉 了 ， 就 不 想 再 改变 了 ， 因 此 QWERTY 键 盘 
仍然 占据 着 绝对 的 主流 。 


2. 鼠标 


鼠标 是 由 道格拉斯 :恩格尔 巴特 于 1946 年 发 明 的 ， 后 来 被 引入 到 了 
施乐 PARC 的 图 形 用户 界 面 中 ， 从 此 ， 鼠 标 成 了 电脑 的 标准 配置 。 

鼠标 经 历 了 机 械 鼠 标 、 光 电 鼠 标 、 无 线 鼠 标 ， 现 在 又 兴起 了 一 种 
3D 鼠 标 。 

传统 的 鼠标 放 在 桌 上 移动 ， 只 能 前 后 左右 移动 ， 而 3D 鼠 标 可 以 将 
鼠标 拿 在 空中 移动 ， 具 有 全 方位 立体 控制 能 力 。 它 具有 前 、 后 、 左 、 
右 、 上 、 下 6 个 移动 方向 。 如 果 用 一 个 形象 的 比喻 来 描述 ， 那 么 ; 3D 鼠 
标 三 传统 鼠标 十 遥控 器 。 

3D 鼠 标 在 游戏 、PPT 演 示 等 应 用 中 有 明显 的 优势 ， 玩 CS 时 ，3D 鼠 
标 就 好 像 真 枪 一 样 ， 可 以 在 3 维 空间 中 进行 位 置 的 移动 ， 比 2D 鼠 标的 游 
戏 感 要 强 多 了 。 

除了 一 些 传 统 概念 的 鼠标 ， 现 在 的 鼠标 也 是 越 来 越 有 创意 ， 如 下 面 
的 脚 用 鼠标 。 




















脚 用 鼠标 
3.， 触摸 屏 一 一 一 切 触手 可 及 


iPhone 的 出 现 ， 使 得 触摸 屏 迅 速 在 手机 上 得 到 普及 ，iPad 将 这 种 趋 
势 受 延 到 电脑 上 。 纽 扣 和 按键 的 英文 都 是 "Button”， 传 言 乔 布 斯 为 了 串 
显 芋 果 产品 没有 键盘 和 鼠标 ， 在 外 界 都 只 罕 圆 领 守 家， 表现 出 苹果 产 


品 “No Button” 的 意识 。 








乔布斯 在 产品 演示 时 从 来 不 穿 有 纽扣 的 衣服 





微软 的 Surface 电 脑 ， 触 摸 功能 也 是 非常 的 酷 。 触 摸 屏 可 以 是 在 茶几 
上 、 吧 台 上 、 增 上 等 地 方 ， 和 上 其 体 的 场景 结合 起 来 ， 可 以 点 餐 、 扣 酒 、 





Surface 


4. 眼睛 凝视 系统 

普通 电脑 的 光标 位 置 是 受 鼠 标 控制 的 ， 需 要 浪费 一 只 手 ， 而 眼睛 凝 
视 系统 则 可 以 解放 人 的 双手 ， 通 过 眼睛 的 凝视 来 代 亚 鼠标 。 

一 束 低能 量 的 激光 摄 入 眼睛 ， 然 后 从 视网膜 反射 出 去 ， 随 着 眼睛 角 








度 的 变更 ， 反 射 也 在 变化 。 通 过 跟踪 反射 光束 ， 眼 睛 凝视 系统 可 以 确定 
眼睛 正在 看 着 的 方向 。 
下 图 是 一 个 人 在 用 眼睛 凝视 系统 控制 游戏 中 角色 的 移动 。 








眼睛 凝视 系统 

不 过 眼睛 凝视 系统 在 实际 使 用 中 ， 很 难 区 分 是 有 意 凝 视 了 某 个 东西 
还 是 偶然 葡 了 一 眼 ， 因 此 在 实际 使 用 上 受到 限制 ， 不 过 在 茶 些 特定 领 
域 ， 还 是 很 有 用 途 的 。 


5. 游戏 手柄 


在 一 般 游 戏 机 都 向 着 超 震 挎 视觉 效果 方向 发 展 的 趋势 下 ，Wii 游 戏 
机 回归 本 源 ， 向 着 简单 好 玩 、 运 动 的 方向 发 展 ， 在 全 球 大 卖 。Wii 游 戏 
机 催生 了 大 批 类 似 的 游戏 机 产品 。 

















网 球 游戏 
当 人 们 用 手 挥 打 着 球拍 ， 游 戏 中 的 角色 就 呈现 相同 的 击 球 动作 。 这 
类 游戏 很 有 一 种 虚拟 现实 的 感觉 ， 游 戏 中 的 角色 就 是 我 们 在 虚拟 世界 里 





的 化 身 ， 我 们 在 现实 世界 中 的 行为 ， 影 响 到 了 虚拟 世界 中 角色 的 行为 ， 
虚拟 世界 中 情节 的 发 展 ， 也 反 过 来 影响 我 们 在 现实 世界 中 的 行为 ， 现 实 





世界 和 虚拟 世界 因此 形成 良好 的 互动 。 

安 状 在 这 些 拳击 手套 、 球 操 里 面 的 ， 是 一 些 传 感 费 以 及 无 线 通 信和 咒 
件 ， 传 感 器 检测 用 。 户 的 挥 拍 方向 、 速 度 等 信息 ， 无 线 通 信 器 件 和 游戏 
主机 通信 ， 传 递 传 感 器 检测 到 的 这 些 信 息 。 


6. 语音 输入 


当 我 们 要 让 别人 做 一 件 事情 时 ， 只 需要 跟 他 《她 ) 说 就 可 以 了 ， 但 
当 我 们 让 计算 机 做 一 件 事情 时 ， 我 们 必须 使 用 双手 去 控制 鼠标 、 键 盘 。 
长 久 以 来 ， 计 算 机 一 直 要 我 们 按照 它们 喜欢 的 方式 来 进行 沟通 ， 完 全 不 
管 别 人 受 得 了 受 不 了 ， 而 人 们 也 逐渐 习惯 了 这 种 输入 方式 ， 以 为 这 一 切 
都 是 理所当然 。 不 过 专家 们 一 直 没 有 瑟 记 让 计算 机 能 像 普 通 人 一 样 进行 
交流 。 

《局 盐 游 侠 》 中 的 “Kitt" 绝 对 是 车 友 们 的 最 爱 ， 它 是 那么 的 善 解 人 
意 ， 束 好 像 一 个 真人 隐 映 在 车 中 的 茶 个 位 置 。Kitt 几 乎 无 所 不 能 ， 打 坏 
人 、 揪 飞机 .……... 而 其 中 最 人性 化 的 功能 束 是 Kitt 能 和 人 类 交谈 。 让 Kitt 能 
听 懂 人 类 的 语言 ， 叫 做 语音 识别 ， 让 Kitt 能 说 人 类 的 语言 ， 叫 做 语音 合 
成 。 

















《 震 盘 游侠》 剧照 





手机 上 的 语音 拨号 功能 
现实 的 语音 识别 系统 还 远 远 没有 Kitt 这 么 强大 ， 不 过 仍然 有 很 多 的 
业务 已 经 商用 ，Office 就 能 让 人 们 用 声音 输入 命令 。 手 机 由 于 体积 的 原 
因 ， 不 能 配置 较 大 的 键盘 和 鼠标 ， 因 此 ， 语 音 识别 在 手机 上 更 有 一 番 作 
为 ， 上 图 就 是 iPhone 上 使 用 语音 拨号 功能 。 


1.3.5 ”显示 设备 一 一 脸面 


女生 们 第 说 男人 是 视觉 动物 ， 并 对 此 表示 不 满 ， 不 过 大 家 看 《 非 诚 
勿 扰 》 时 就 会 友 现 ， 当 男 嘉 性 容貌 一 般 时 ， 女 生 们 的 问题 通 肖 比 较 屋 
利 ， 说 话 的 语气 也 不 那么 注意 ， 而 要 是 有 一 个 很 帅 的 男 嘉 宾 出 现时 ， 女 
生 们 则 都 改作 温柔 状 ， 说 话 的 语气 、 提 出 的 问题 都 要 柔弱 很 多 ， 以 免 引 
起 不 好 的 印象 。 

从 上 面 的 事实 可 知 ， 女 人 也 古 视 觉 动 物 ， 男 人 十 女人 二 人 ， 上 所 以 人 
都 是 视 沉 动物 。 显 示 器 就 是 计算 机 的 脸面 ， 从 这 个 角度 上 说 ， 显 示 器 才 
是 计算 机 最 重要 的 部 分 。 


1. 2D 显 示 器 


如 果 贴 近 显 示 器 或 者 电视 机 看 ， 束 会 注意 到 ， 显 示 屏 是 由 一 个 一 个 


的 小 方 格子 组 成 ， 每 个 格子 称 为 一 个 像素 点 。 每 个 格子 的 颜色 可 以 只 有 
黑白 两 色 ， 可 以 是 从 黑 到 白 的 不 同 灰 度 《我 们 小 时 候 看 的 黑白 电视 
机 ) ， 也 可 以 是 彩色 《〈 现 在 的 电视 机 、 显 示 器 等 ) 。 

图 像 放 大 后 ， 束 会 看 得 出 格子 效果 ， 只 是 由 于 格子 在 正常 尺寸 下 太 
小 了 ， 人 眼 在 一 定 距离 外 是 看 不 出 来 的 ， 所 以 人 们 在 看 图 像 时 ， 都 认为 
图 像 是 光滑 的 。 

















放大 到 8 倍 的 效果 

几 年 前 的 显示 器 以 CRT 为 主 ， 而 现在 液晶 显示 器 (LCD) 则 占 主 
流 。 

不 怕 不 识 俩 ， 惑 怕 货 比 俩 ， 我 们 在 看 一 台 显 示 器 时 ， 一 般 感 受 不 到 
差别 ， 不 过 如 果 将 两 台 显 示 器 进行 对 比 ， 差 距 就 能 显现 出 来 。 在 显示 效 





果 上 ， 液 唱 的 确 是 没 法 和 等 离子 相 比 ， 等 离子 在 色彩 艳丽 程度 、 亮 度 范 
围 、 运 动 时 的 拖 影 效 应 上 都 好 于 液晶 。 不 过 等 离子 的 更 贵 、 更 重 、 更 耗 
电 。 


2. 3D 显 示 器 





一 部 《 阿 凡 达 》 在 全 球 把 3D 概 念 又 一 次 炒 火 了 ，《 阿 凡 达 》 的 票 
房 收 入 超过 了 中 国 一 年 电影 的 票房 总 收入 。 随 着 一 系列 3D 电 影 的 热 
映 ，3D 显 示 器 、3D 电 视 也 逐步 火 了 起 来 。 


3. 数字 纸张 


电子 书市 场 最 近 非 党 火爆 ， 亚 马 进 、 汉 王 、Sony 等 公司 都 推出 了 目 
己 的 电子 书 系统 ， 电 子 书 使 用 了 一 种 新 的 显示 技术 一 一 数字 纸张 。 








3D 显 示 器 





电子 书 


数字 纸张 不 同 于 LCD 显 示 屏 ， 它 断 电 后 仍 可 以 保留 信息 ， 只 是 在 换 
页 时 才 需 要 消耗 能 量 。 因 此 电子 书 的 功 耗 很 低 ， 待 机 时 间 很 长 。 i 
的 显示 效果 和 普通 的 纸张 相似 ， 光 线 较为 自然 ， 不 像 LCD 显 示 屏 这 么 刺 
眼 ， 因 此 可 以 长 时 间 观 看 。 

目前 市 面 上 电子 书 大 都 是 黑白 色 的 ， 彩 色 的 数字 纸张 也 已 经 出 现 ， 
不 久之 后 ， 图 像 质量 将 会 达到 普通 显示 器 水 平 。 


4. 多 屏 





多 屏 电脑 
一 般 的 电脑 只 有 一 个 屏 ， 不 过 这 种 苹果 的 新 概念 电脑 有 3 个 屏 。 中 
间 的 屏 磋 玩 游戏 ， 左 边 的 屏 融 聊天 ， 石 边 的 屏 磋 看 电影 ， 真 是 绝 配 ! 


5. 卷轴 显示 屏 











左边 为 伸展 开 的 电脑 ， 右 边 为 卷 好 的 电脑 
这 种 新 概念 电脑 可 以 将 显示 屏 郑 起来， 这样 拿 一 个 电脑 就 好 像 背 着 
一 把 雨 伴 一样， 原本 巨大 的 空间 变 得 很 小 巧 ， 电 脑 也 更 便携 。 


~ 


6. 投影 


“无 形 * 在 武侠 小 说 中 被 公认 为 是 武 学 最 高 境界 ， 如 段 誉 的 六 脉 神 
剑 ， 能 以 无 形 剑 气 杀人 。 而 在 现实 武 学 中 ， 无 形 也 备 受 推 综 ， 李 小 龙 就 
说 过 : “以 无 法 为 有 法 ， 以 无 限 为 有 限 。” 屏 幕 的 最 高 境界 也 是 无 形 ， 哪 
里 都 没有 屏幕 ， 哪 里 都 是 屏 需 。 

一 直 以 来 ， 人 们 都 习惯 于 屏幕 ， 认 为 只 有 屏 尹 才能 显示 。 习 惯 是 非 
常 可 怕 的 ， 习 惯 淹没 了 人 们 的 创造 性 。 不 过 还 是 有 很 多 人 打破 第 规 ， 想 
到 了 一 些 特别 的 东西 。 


NS 
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屏幕 、 键 盘 通 过 投影 来 实现 
随 着 集成 电路 的 发 展 ， 计 算 机 的 主机 是 可 以 变 得 非常 小 巧 的 ， 但 是 
人 机 通信 的 设备 却 不 能 变 小 ， 键 盘 太 小 了 按键 就 不 方便 ， 显 示 屏 太 小 了 
看 东西 束 不 太 和 舒服 。 那 么 有 没有 一 种 方法 能 既 让 计算 机 变 得 便携 ， 又 不 
影响 用 户 体验 呢 ? 在 上 面 这 个 Dell 的 新 概念 电脑 中 ， 就 展示 了 这 个 思 











想 。 主 机 就 是 中 间 紫 色 的 东西 ， 显 示 和 键盘 都 通过 投影 实现 。 
这 种 投影 是 将 影像 投影 在 一 个 物体 上 ， 而 全 居 投 影 则 能 将 影像 投影 


在 空气 中 ， 这 种 我 们 在 好 莱 坞 电影 中 经 党 看 到 的 技术 ， 现 在 也 能 在 现实 
生活 中 看 到 。 湖 南 卫视 “给 力 2011 足 年 演唱 会 ?就 使 用 了 这 个 技术 来 使 已 
故 歌星 邓丽君 “复活 ”登台 演唱 。 











日 本 大 阪 城内 的 全 明 投 影 


7. 屏幕 总 结 
计算 机 的 核心 理念 没有 变化 ， 不 过 外 观 形态 却 发 生 了 巨大 的 变化 。 


屏幕 是 显示 计算 机 计算 结果 的 地 方 ， 即 使 不 是 最 关键 的 地 方 ， 也 是 
最 吸引 眼球 的 地 方 。 在 越 来 越 注 重 人 机 界面 的 今天 ， 屏 幕 已 经 逐渐 成 为 








了 一 个 重要 战场 ， 屏 幕 也 呈现 出 以 下 几 大 发 展 趋势 : 

(1) 越 来 越 大 :大 屏幕 看 起 来 更 加 真实 ， 更 加 谋 撼 ， 即 使 是 手机 
的 屏 大 也 在 逐渐 增 大 。 

(2) 越 来 越 靓 : 屏幕 从 早期 的 黑白 ， 到 彩色 ， 再 到 现在 的 3D， 效 
打 越 来 越 好 。 

(3) 越 来 越 无 形 : 投影 技术 将 会 得 到 飞速 发展 ， 未 来 很 可 能 是 ， 
随身 带 一 个 电脑 ， 就 地 取 屏 幕 。 


1.3.6 ”显卡 一 我 贵 ， 因 为 我 专业 


显卡 是 连接 主机 与 显示 器 之 间 的 桥架 ， 它 最 基本 的 功能 是 将 CPU 送 
来 的 图 像 数 据 处 理 成 显示 器 认识 的 格式 ， 再 送 到 显示 器 形成 图 像 。 除 了 
这 个 基本 的 转换 功能 外 ， 现 在 的 显卡 还 有 两 大 功能 ， 一 是 图 像 绘制 ， 二 
是 视频 解码 。 

显卡 内 有 一 个 处 理 器 ， 叫 做 GPU (Graphic Processing Unit， 图 形 处 
理 器 ) ， 图 形 用 户 界 面 、 视 频 游戏 等 ， 都 是 由 一 系列 图 形 、 图 像 组 成 ， 
CPU 要 男 一 个 圆 时 ， 就 给 GPU 发 送 一 个 命令 ， 告 诉 GPU 圆圈 的 位 置 、 大 
小 、 颜 色 等 信息 ，GPU 就 自动 把 图 画 出 来 。 由 于 GPU 是 专门 针对 图 形 算 
法 设计 的 ， 因 此 做 这 种 事情 的 能 力 比 CPU 要 强 ， 这 样 CPU 就 可 以 节省 时 
间 去 做 其 他 更 适合 自己 做 的 事 了 。 

我 们 看 的 视频 都 是 经 过 压缩 了 的 ， 在 播放 时 ， 要 先 解码 成 一 幅 一 幅 
的 图 像 ， 这 也 是 非常 耗 时 的 ， 这 块 工作 现在 也 交 给 了 GPU。 


1.3.7 ”通信 接口 一 一 关节 


人 的 身体 有 很 多 关节 ， 如 膝 关 节 ， 将 小 腿 和 大 腿 连接 起 来 。 计 算 机 
有 很 多 部 件 ， 也 需要 通过 关节 将 它们 联系 起 来 。 























1. QPI 


QPI (QuickPath ”Interconnect) 是 Intel 最 新 的 芯片 间 点 对 点 互联 技 
术 ， 用 于 将 两 个 处 理 器 连接 起 来 ， 或 者 是 连接 处 理 右 与 北桥 蕊 片 ， 它 代 
蔡 了 传统 的 前 端 总 线 (Front Side Bus) ，AMD 与 之 类 似 的 技术 叫做 
HyperTransport (HT) 。 





2.PCLIPCI-E 


PCI (Peripheral Component Interconnect， 外 部 设备 互联 总 线 ) 是 由 
Intel 于 1992 年 提出 的 ， 是 一 种 连接 计算 机 主板 和 外 部 设备 的 总 线 标准 。 
现在 PCI 总 线 被 它 的 升级 版 本 PCI Express 取 代 。 

PCI 是 一 种 共享 式 总 线 ， 可 以 连接 多 个 设备 ， 但 由 于 数据 传输 的 独 
享 性 ， 一 个 时 刻 只 能 由 一 个 主 设备 占用 总 线 ， 总 线 上 必须 要 有 仲裁 器 。 
PCI-E 则 是 PCI 的 升级 版 本 ， 其 速率 远大 于 以 前 的 PCI， 多 个 设备 通信 时 
采用 桥 的 方式 ， 两 两 互 不 干扰 。 

在 PC 中 ， 由 于 显卡 、 网 卡 等 都 是 通过 外 接 板 卡 接 入 到 PCI-E 插 槽 
中 ， 因 此 ，PCI-E 在 PC 领域 中 作为 板 间 互联 协议 。 在 嵌入 式 设备 中 ， 由 
于 空间 大 小 的 限制 ， 忌 斤 被 直接 焊 在 PCB〈 印 制 电路 板 ) 上， 使 用 PCI- 
E 进 行 心 片 间 的 连接 ， 因 此 PCI-E 在 租 入 式 领 域 争 被 作为 已 片 间 互 联 协 
Ws 

与 PCI-E 竞 争 的 高 速 通信 接口 还 有 很 多 ， 如 磐 入 式 系统 中 的 RapidIO 
等 ， 不 过 即使 在 嵌入 式 领 域 ，PCI-E 也 是 使 用 得 最 多 的 。 





3. SATA 


SATA 是 Serial ATA 的 缩写 ， 即 串 行 ATA， 由 于 采用 串 行 方式 传输 
数据 而 得 名 ， 是 目前 硬盘 的 主要 接口 。Serial ATA 一 次 只 会 传送 1 位 数 
据 ， 这 样 能 减少 SATA 接 口 的 针脚 数目 ， 使 连接 电费 数目 变 少 ， 这 样 的 
架构 能 降低 系统 能 耗 和 减 小 系统 复杂 性 。 虽 然 一 次 只 能 传送 1 位 数据 ， 
但 是 却 可 以 使 用 较 高 的 工作 频率 来 提高 数据 传输 的 带宽 。 





4. USB 


USB 是 Intel、 康 柏 、DEC、IBM、 微 软 、NEC、 北 方 电信 联合 开发 
的 外 部 总 线 ， 它 支持 即 揪 即 用 ， 目 前 USB 几 乎 已 经 统一 了 PC 机 和 外 部 可 
揪 拔 设备 之 间 的 接口 ， 如 USB 上 忌 标 、USB 键 盘 、U 盘 、USB 手 机 接口 、 
USB 摄 像 机 接口 等 。 


5. 显示 器 接口 





现在 很 多 显卡 上 都 带 有 3 个 接口 : VGA、DVI、HDMI 接 口 ， 用 于 和 
显示 器 连接 。VGA 是 比较 老 的 显示 接口 ， 传 输 的 是 模拟 信号 。DVI 全 称 
为 Digital ”Video ”Interface， 传 输 的 是 数字 信号 ， 它 是 1999 年 由 Silicon 
Image、Intel、Compad、IBM、HP、NEC、Fujitsu 等 公司 共同 组 成 
DDWG (Digital Display Working Group， 数 字 显 示 工 作 组 ) 推出 的 接口 
标准 。 

HDMI 全 称 是 High Definition Multimedia Interface， 于 2002 年 4 月 ， 
由 日 立 、 松 下 、 飞 利 浦 、 索 尼 、 汤 姆 进 、 东 芝 和 Silicon Image 等 7 家 公司 
联合 组 成 HDMI 组 织 。HDMI 能 高 品质 地 传输 未 经 压缩 的 高 清 视频 和 多 
声 道 音频 数据 。 现 在 的 高 清 电视 、 显 示 器 几乎 都 已 经 支持 了 HDMI 接 
问 各 

HDMI 接 口 的 体积 比 DVI 更 小 ， 并 且 可 同时 传输 音频 及 视频 信号 ， 
线 缆 也 可 以 更 长 。 最 新 的 HDMI 1.4 接 口 支持 3D 视 频 。 
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6. 接口 的 专利 费 


古代 土匪 打劫， 比较 常用 的 套路 就 是 在 路 中 央 设 一 道路 卡 ， 看 见 有 
人 过 来 束 吟 首 诗 :“ 此 山 是 我 开 ， 此 树 是 我 裁 ， 要 想 过 此 路 ， 留 下 买 路 
财 。” 

这 真是 笔 好 买卖 ， 来 的 去 的 ， 都 得 交 钱 。 现 在 的 公司 也 喜欢 这 样 ， 
只 是 采取 了 不 同 的 方式 ， 那 就 是 定义 接口 标准 ， 然 后 在 里 面 内 藤 目 己 的 
专利 。 设 备 总 要 和 外 界 通信 吧 ， 当 一 种 接口 成 为 主流 ， 其 他 的 设备 要 和 
外 界 相 连 ， 就 要 符合 这 种 接口 ， 有 了 时候 也 免不了 交点 专利 费 。 


1.3.8 ”软件 一 一 计算 机 的 灵魂 
没有 软件 的 计算 机 ， 就 好 像 没 有 三 魂 七 鲍 的 躯壳 ， 和 死尸 没有 区 














别 。 软 件 就 是 计算 机 的 灵魂 。 

根据 用 途 的 不 同 ， 软 件 被 分 为 操作 系统 和 应 用 软件 。 

一 个 大 家 族 通 党 都 有 一 个 管家 来 管理 家 族 的 各 大 产业 、 事 物 安 排 、 
日 常生 活 等 ， 同 样 ， 计 算 机 也 需要 一 个 管家 来 管理 、 调 度 和 目 己 这 么 多 的 
硬件 ， 维 持 计 算 机 的 运转 ， 这 个 软件 就 是 操作 系统 。 

既然 把 操作 系统 比 作 管家 ， 那 么 应 用 软件 就 只 能 用 长 工 来 比喻 了 。 
在 这 些 长 工 中 ， 有 帮助 主人 打字 的 ， 如 “Word”， 有 陪 主人 游戏 的 ， 

如 “CS”， 侦 尔 从 外 面 混 进 来 一 些 居 心 不 恨 的 长 工 做 些 破 坏 活动 ， 这 些 就 
古 病毒 程序 。 
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硬件 、 操 作 系统 、 应 用 软件 的 关系 
1.3.9 ”计算 机 产业 发 展 态势 
1. 纵 同型 产业 链 


计算 机 产业 刚刚 兴起 时 ， 产 业 的 分 工 还 不 是 那么 明确 ， 计 算 机 产业 
呈现 出 纵 癌 结构 ， 如 下 图 所 示 : 








纵向 型 计算 机 产业 (20 世 纪 60 、70 年 代 ) 


操作 系统 


计算 机 


处 理 器 





纵向 型 计算 机 产业 链 
每 家 计算 机 公司 都 目 己 设计 处 理 器 ， 目 己 生 产 计 算 机 ， 目 己 开发 操 
作 系 统 和 应 用 软件 ， 目 己 销售 ， 这 样 做 既 有 优势 也 有 劣势 。 优 势 在 于 ， 
一 切 资源 协调 成 为 一 个 无 颖 的 人 整体， 兼容 性 比较 好 ， 劣 势 在 于 ， 一 旦 客 
户 购买 了 一 个 公司 的 产品 ， 他 惑 被 绑 定 在 这 个 公司 上 面 ， 如 采 遇 到 问 
题 ， 只 能 抛弃 整个 产品 系列 ， 这 样 做 的 代价 实在 太 大。 而 且 计算 机 公司 
什么 都 做 ， 利 第 并 不 专业 。 


2.， 横 同型 产业 链 


后 来 ， 各 家 公司 为 了 更 快 的 推出 产品 ， 开 始 使 用 通用 处 理 器 ， 专 业 
的 软件 公司 也 越 来 越 多 ， 计 算 机 产业 随 之 模 向 发展 ， 如 下 图 所 示 : 








横向 型 计算 机 产业 (20 世 纪 80、90 年 代 ) 
ak ] HP ] , 


计算 机 










处 理 器 Intel AMD | ARM 


横向 型 计算 机 产业 链 

















在 这 个 产业 链 结构 中 ， 同 一 个 处 理 器 可 以 拼装 成 各 种 品牌 的 计算 
机 ， 每 种 计算 机 上 又 可 以 运行 各 种 操作 系统 和 应 用 软件 ， 大 批量 、 灵 活 
的 生产 方式 带 来 极 大 的 效率 提升 ， 公 司 还 有 消费 者 都 受 荔 其 中 。 


3， 军 越 时 代 


这 几 年 电视 台 流行 罕 越剧， 如 《神话 》、《 富 》 等 ， 而 网 上 的 罕 越 
小 说 更 是 比比 丝 是 ， 如 《史上 第 一 混乱 》、《 极 品 家 丁 》、《 庆 余年 》 
等 。 可 能 是 大 家 觉得 单一 的 角色 太 没 有 意思 了 ， 都 想 去 别人 的 领地 玩 
玩 。 

IT 公司 也 一 样 ， 苹 果 收 购 了 IC 公司 P.A.Semi， 自 己 不 止 做 设备 ， 也 
做 起 了 蕊 片 ，Google 开 发 了 Android 操 作 系 统 ， 其 至 还 自己 做 手机 ; Intel 
不 止 做 芯片 ， 也 做 起 了 操作 系统 MeeGo; HP 买 了 WebOS 操 作 系 统 ; 
Oracle 收 购 了 Sun， 不 止 有 软件 ， 还 有 了 服务 器 和 必 片 ; 三 星 除了 卖 设 
备 外 ， 还 做 忌 片 ， 而 且 还 接 必 片 制造 外 包 的 活 : 手机 蕊 片 公司 都 提供 
Turn-key〔 交 钥匙 ) 服务 ， 不 止 提 供 心 片 ， 还 将 整套 的 软件 及 手机 设计 


指导 全 套 提 供给 了 用 户 ， 就 兰 目 己 帮 客户 生产 手机 了 。 上 所 有 的 这 一 切 迹 
象 ， 都 在 表明 一 种 趋势 : IT 行业 正在 垂直 整合 。 

我 们 在 学 哲学 时 ， 知 着 事物 的 发 展 通 音 圣 现 出 螺 线 状 上 升 的 态势 ， 
计算 机 行业 的 发 展 也 正 符 合 了 这 种 趋势 。 


第 2 章 ” 初 识 处 理 融 一 一 掀起 你 的 


处 理 器 者 ， 王 者 之 气 
硬件 搭 台 ， 软 件 唱戏 














导读 一 一 处 理 器 的 “ 钱 ” 途 


处 理 器 无 疑 是 PC 中 最 核心 的 设备 ， 无 疑 也 是 最 赚钱 的 设备 。 
目前 全 球 的 4 大 电脑 公司 


惠普 、 
里 器 赚 的 钱 。 


























宏基 、 戴 尔 、 联 想 ， 它 们 卖 电脑 赚 的 钱 ， 远 不 及 Intel 
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处 理 器 的 “ 钱 ” 途 

以 PC 老大 惠普 为 例 ，2010 年 公司 净 收 入 1260 亿 美金 ， 运 营利 润 115 亿 美金 
(Personal System Group) 的 净 收 入 为 407 亿 美金 ， 运 营利 润 为 20 亿 美金 。 而 Intel2010 年 的 净 收 
入 为 436 亿 美金 ， 运 营利 ; 











会， 了 PC 等 业务 
四 为 156 亿 美金 ， 从 中 我 们 可 以 看 出 ，PC 公 司 是 卖 了 不 少 钱 ， 不 过 钱 
都 让 处 理 器 公司 赚 了 。 




















最 核心 的 ， 才 是 最 网 





























l 钱 的 ， 才 是 我 们 最 该 去 关注 的 ， 下 面 开始 我 们 的 处 开 





器 之 旅 oo 


2.1 ”处理 器 是 怎样 工作 的 一 一 处 理 器 的 硬件 模型 
2.1.1 便 连 线 电 路 一 一 一 定 终 身 


要 想 做 一 个 运算 ， 其 实 不 一 定 非 要 用 处 理 器 ， 用 普通 的 数字 电路 也 
可 以 实现 。 例 如 ， 下 面 这 个 运算 : 











天 一 于 ] 
| out = inl + in2 * in3 + in4 * in5 * in6} | 


Neary 


我 们 使 用 加 法 器 、 乘 法 器 可 以 搭 出 如 下 的 电路 : 
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电路 实现 模型 


这 个 电路 使 用 了 3 个 乘法 器 ，2 个 加 法 器 。 如 果 我 们 又 要 做 另 一 个 运 
算 : 


| eut = inl + in2z2 本 En3 + in4 «4 Lnis + in6; | 
以 前 搭建 的 电路 已 经 没 用 了 ， 我 们 必须 要 重新 搭建 另 一 个 电路 : 

















电路 实现 模型 
用 这 种 方式 来 实现 运算 ， 每 一 种 新 的 运算 ， 都 要 搭建 一 种 新 的 电 
路 ， 这 样 的 工作 太 苑 民 伤 财 了 ， 那 么 有 没有 一 种 通用 的 计算 设备 ， 一 套 
硬件 就 能 实现 所 有 的 功能 呢 ? 
有 ， 计 算 机 的 产生 残 是 为 了 解决 这 个 事 的 ! 


2.1.2 通用 计算 机 模型 一 一 便 件 搭 台 ， 软 件 唱 戏 


一 个 复杂 的 运算 ， 都 是 由 一 些 简单 的 运算 组 合 而 成 的 ， 一 个 最 简单 
的 运算 可 以 用 下 面 的 模型 表示 。 




















简单 计算 模型 
例如 ，c 二 a 十 bp， 输 入 数据 是 a 和 b， 输 出 数据 是 ce， 运 算 符 是 加 法 。 
一 大 堆 的 运算 就 需要 一 大 堆 的 输入 数据 和 输出 数据 ， 我 们 首先 要 有 
一 个 存储 器 将 输入 数据 和 输出 数据 存 起 来 。 
然后 我 们 将 一 些 和 常用 的 基本 运算 ， 如 加 法 器 、 乘 法 器 等 堆 在 一 起 ， 
给 它 取 个 名 字 ， 叫 算术 逻辑 单元 (ALU，Arithmetic Logic Unit) 。 
剩 下 的 事情 ， 就 是 要 有 一 个 控制 器 ， 去 控制 将 存储 器 中 的 数据 送 到 





ALU 中 去 做 运算 ， 然 后 将 结果 存 回 到 存储 器 中 来 。 数 据 放 在 哪 ， 做 什么 
运算 ， 这 些 都 由 指令 来 告诉 控制 器 ， 每 一 个 简单 的 运算 都 对 应 一 条 指 
令 ， 这 些 指令 序列 就 组 成 了 完成 这 个 复杂 功能 的 程序 。 

这 就 是 计算 机 的 通用 计算 模型 ， 这 个 模型 可 以 用 下 面 这 个 图 描述 。 


通用 计算 模型 
数据 要 从 外 部 输入 进来 ， 也 要 输出 出 去 ， 一 个 完整 的 计算 机 化 辑 结 


构 如 下 图 所 示 。 
1 : | 

















冯 : 诺 依 曼 结构 

这 个 结构 也 就 是 加 : 诡 依 曼 在 他 著名 的 “关于 EDAC 的 报告 草案 ?中 描 
述 的 结构 。 这 种 结构 的 计算 机 被 叫 做 色 : 话 依 曼 机 ， 实 际 上 ， 现 在 的 计 
算 机 都 是 冯 : 诺 依 曼 机 。 

与 专用 数字 电路 不 同 的 是 ， 这 全 硬件 什么 也 做 不 了 ， 除 非 配 上 有 具体 
的 软件 。 软 件 由 指令 序列 组 成 ， 决 定 了 计算 机 要 完成 的 功能 。 

艺术 家 下 乡 表 沉 ， 到 一 个 地 方 ， 搭 一 次 台 ， 演 出 一 次 ， 而 红 磺 体育 
馆 这 些 地 方 ， 一 次 建 好 后 ， 各 位 明星 都 可 以 去 那里 献 唱 。 计 算 机 就 是 红 
础 体育 馆 : 硬件 搭 合 ， 软 件 唱戏 。 
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硬件 搭 台 
硬件 hardware 
硬件 搭 台 ， 软 件 唱 戏 
随后 ， 集 成 电路 发 展 起 来 ， 人 们 发 现 ， 电 路 可 以 在 一 块 小 小 的 芯片 
上 上 实现， 于是， 计算 机 的 基本 功能 就 被 转移 到 了 一 块 必 户 上 ， 这 块 必 搬 
就 叫 处 理 器 ， 再 配 上 各 种 输入 输出 设备 ， 以 及 其 他 辅助 设备 ， 就 组 成 了 
现代 的 计算 机 。 





2.2 ”怎样 来 使 用 处 理 右 一 一 处 理 右 的 编程 模型 
2.2.1 软 便 不 分 


早期 计算 机 出 现时 ， 软 件 的 编写 都 是 直接 面向 硬件 系统 的 ， 即 使 是 
同一 计算 机 公司 的 不 同 计算 机 产品 ， 它 们 的 软件 都 是 不 能 通用 的 ， 这 个 
时 代 的 软件 和 硬件 紧密 的 灯 合 在 一 起 ， 不 可 分 离 。 


2.2.2 ISA 横 插 一 刀 


IBM 为 了 让 自己 的 一 系列 计算 机 能 使 用 相同 的 软 
件 ， 免 去 重复 编写 软件 的 痛苦 ， 在 它 的 System/360 计 
算 机 中 引入 了 ISA (Instruction Set Architecture， 指 令 
集体 系 结构 ) 的 概念 ， 将 编程 所 需要 了 解 的 便 件 信息 
从 硬件 系统 中 抽象 出 来 ， 这 样 软件 人 员 就 可 以 面向 硬件 
ISA 进 行 编程 ， 开 发 出 的 软件 不 经 过 修改 就 可 以 应 用 
在 其 他 ISA 架 构 的 系统 上 。 ISA 将 软件 、 硬 件 解 耦 

ISA 用 来 描述 编程 时 用 到 的 抽象 机 器 ， 而 非 这 种 
机 器 的 具体 实现 。 从 编程 人 员 的 角度 来 看 ，ISA 包 括 一 套 指令 集 和 一 些 
寄存 器 ， 程 序 员 知道 它们 就 可 以 编写 程序 。 在 PC 领域 ，Intel/ 和 AMD 的 
处 理 器 都 是 基于 x86 指 令 集 ， 因 此 我 们 不 用 担心 换 了 更 高 性 能 的 CPU， 
软件 不 能 用 ， 而 手机 上 的 程序 不 能 在 电脑 上 用 ， 这 是 因为 手机 上 的 程序 
绝 大 部 分 是 基于 ARM 指 令 集 的 。 








2.3 ”处 理 器 的 分 层 模 型 


ISA 的 出 现 ， 是 处 理 器 领域 的 一 件 大 事 ， 
处 理 器 的 外 部 呈现 和 内 部 实现 可 以 分 离开 来 。 Sn 
处 理 器 被 分 为 3 个 层次 ， 如 右 图 所 示 。 处 理 器 微 架 构 

ISA 和 名 被 简称 为 Architecture (架构 ) ， 古 LUAN aa 
处 理 器 的 一 个 抽象 描述 ，ISA 在 处 理 器 中 的 实 。 戎 oa 
现 ， 被 称 为 Microarchitecture 〈 微 架构 ) ， 同 样 处 理 器 系统 层次 
是 x86 的 Architecture，Intel 和 AMD 各 上 自 使 用 不 
同 的 Microarchitecture。 

通俗 的 说 ，Architecture 是 处 理 器 的 外 表 ，Microarchitecture 是 处 理 器 
的 内 心 。Architecture 是 设计 规范 ， 定 义 处 理 器 能 做 什么 ， 
Microarchitecture 是 设计 实现 ， 描 述 处 理 器 是 怎么 实现 功能 的 ， 物 理 实 现 
是 具体 的 实现 过 程 ， 可 以 用 20nm 的 集成 电路 工艺 实现 处 理 器 ， 也 可 以 
用 40nm 的 工艺 实现 ， 可 以 用 电子 实现 (电子 计算 机 〉 ， 也 可 以 用 量子 
实现 (量子 计算 机 〉。 

如 果 用 软件 开发 的 流程 来 和 处 理 器 进行 对 比 ， 那 么 Architecture 就 好 
比 需求 ，Microarchitecture 好 比 设计 ， 物 理 实现 好 比 真 正 的 代码 。 

Microarchitecture 通 常 也 可 以 认为 等 同 于 内 核 (core〉， 一 个 处 理 器 
除了 内 核 外 ， 也 还 有 很 多 其 他 的 东西 。 例 如 : VO (Input/Output) 、 电 
源 、 时 钟 等 ， 同 样 一 种 微 架 构 可 以 出 多 种 型 号 的 处 理 器 。 





指令 集体 系 结构 








处 理 器 一 般 结 构 
上 上面 这 张 图 描述 了 一 个 处 理 占 的 物理 结构 ， 它 包括 3 大 部 分 :内 
核 、 存 储 器 、 外 设 与 接口 。 
下 面 这 张 图 以 商用 处 理 器 的 例子 描述 了 指令 集 、 微 染 构 、 处 理 占 之 
间 的 关系 : 








外 令 集 、 微 架构 、 处 理 器 的 关系 
Intel 著 名 的 奔 2、 奔 3 电脑 ， 使 用 了 Intel 历 史上 非常 成 功 的 P6 微 染 
构 ， 奔 4 及 一 部 分 至 强 处 理 器 使 用 了 NetBurst 微 架构 ， 它 们 都 使 用 x86 指 
令 集 。ARM 公 司 设 计 的 ARMCortex-A8 内 核 使 用 ARMv7 指 令 集 ， 被 用 在 
了 TI 三星 等 很 多 公司 的 处 理 嚣 上。 











2.4 选 什么 样 的 处 理 器 一 一 适合 的 才 是 最 好 的 


选 处 理 占 束 像 找 老 姿 ， 没 有 好 坏 之 分 ， 只 有 适合 与 不 适合 之 分 ， 适 
合 的 才 是 最 好 的 。 系 统 集成 公司 在 选择 处 理 器 时 ， 通 常会 考量 这 些 因 
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选择 处 理 器 的 考量 因素 
2.4.1 硬件 指标 硬 实 力 的 竞争 


1. 性 能 


性 能 是 选择 处 理 器 第 一 要 考虑 的 因素 ， 如 果 性 能 达 不 到 要 求 ， 其 他 
条 件 再 好 也 没 用 。 下 面 是 利用 的 评估 性 能 的 基准 : 
时 钟 基准 

MIPS (Millions of Instructions Per Second) , MFLOPS (Millions of 
Floating-point Operations per Second) 常常 被 处 理 嚣 公司 用 于 衡量 处 理 器 
的 性 能 。MIPS 越 高 ， 则 理论 上 每 秒 钟 可 以 执行 的 指令 数 也 越 多 ， 但 
是 ， 每 秒 实际 执行 的 指令 数 是 会 少 于 理论 值 的 ， 如 并 行 性 不 强 、Cache 
miss、 通 信 效 率 、 总 线 冲突 等 都 会 影响 到 实际 值 和 理论 值 的 差距 。 





MIPS、MFLOPS 是 处 理 器 公司 最 容易 给 出 的 指标 ， 也 能 大 致 的 反映 处 
理 器 的 性 能 ， 但 不 能 真实 的 反映 。 
综合 基准 

人 们 一 直 在 寻找 一 种 单一 的 基准 ， 这 种 基准 可 以 独立 于 任意 类 型 的 
计算 机 来 进行 公平 的 比较 。 最 后 人 们 统一 作出 了 如 下 一 个 结论 : 用 第 三 
代 语 言 (C 语 言 等 ) 编写 一 个 程序 ， 在 不 同 的 系统 上 编译 运行 ， 然 后 测 
试 在 不 同 的 系统 上 每 次 运行 该 程序 所 需 的 时 间 。 这 一 思想 又 有 3 个 分 
文 : Whetstone 主 要 侧重 于 浮 点 运算 ，Linpack 主 要 侧重 于 线性 代数 程 
序 ，Dhrystone 主 要 侧重 于 字符 串 和 整数 程序 。Dhrystone 基 准 的 评测 方 
法 是 : 统计 某 程 序 1 秒 内 能 执行 的 次 数 ， 也 即 每 秒 的 Dhrystone 数 。 

应 该 说 ， 综 合 基 准 提 供 了 一 些 依据 ， 不 过 也 并 不 完善 ， 因 为 要 想 在 
某 处 理 器 上 获得 最 佳 性 能 ， 需 要 在 编程 时 对 程序 做 针对 处 理 器 的 优化 ， 
而 一 个 优秀 的 优化 者 和 一 般 的 优化 者 得 到 的 性 能 差别 是 相当 大 的 。 影 响 
最 终 程序 执行 性 能 的 ， 并 不 仅仅 是 处 理 右 硬件， 还 包括 软件 ， 以 及 软件 
与 硬件 的 配合 ， 这 是 一 个 系统 工程 ， 很 难 下 一 个 很 严肃 的 结论 。 不 过 对 
于 一 般 应 用 来 说 ， 综 合 基 准 已 经 能 反映 出 处 理 器 的 大 致 性 能 
专业 评估 组 织 基准 

标准 性 能 评估 公司 (SPEC, Standard Performance Evaluation 
Corporation〉 成 立 于 1988 年 ，SPEC 从 各 种 不 同 的 应 用 场景 中 选 出 一 些 
比较 有 代表 性 的 程序 ， 称 为 基准 套件 (Benchmark ”Suite〉。SPEC 基 准 
中 最 出 名 的 是 它 的 CPU 套件 ， 用 于 测试 CPU 的 吞吐 量 、Cache 和 存储 髓 
的 访问 速度 等 。 

在 各 入 式 领 域 ,' EEMBC (Embedded Microprocessor Benchmark 
Consortium ) 基准 名 被 使 用 ， 其 应 用 涵盖 汽车 、 消 费 电 子 、 通 信 等 领 
域 。 


2. 功 耗 























Google 曾 经 的 运营 高 级 副 总 裁 Urs Hoelzle 说 : 

“我 们 曾经 设想 ， 把 庞大 的 服务 器 放 在 一 稻 船 上， 让 流水 发 动能 
源 ， 和 带动 信息 的 整合 。 这 看 起 来 风光 无 限 的 浪漫 图 景 ， 诉 说 着 我 们 对 理 
想 不 舍 恒 夜 的 追求 。” 

如 果 把 Urs Hoelzle 的 这 人 句 话 理解 为 Google 多 么 有 创意 、 多 么 有 理 
想 ， 那 就 错 了 。 俗 话说 ， 吃 菜 吃 心 ， 听 话 昕 音 ， 听 话 要 听 是 谁 说 的 。 作 
为 管理 几 百 万 台 《 甚 至 更 多 ) 计算 机 的 大 佬 ，Urs Hoelzle 比 一 般 人 更 能 
理解 “ 电 老虎 ”的 含义 。Google 是 一 家 信息 服务 公司 ， 公 司 的 成 本 除了 员 
工 的 成 本 外 ， 就 属 这 些 计算 机 的 成 本 最 多 了 。 计 算 机 人 硬件 只 是 一 次 性 投 
入 ， 而 耗 电 、 制 冷却 是 每 年 都 要 付 钱 的 。 美 国 研究 机 构 的 数据 显示 ， 过 
不 了 几 年 ， 用 电 和 制冷 的 费用 就 超过 了 计算 机 本 身 的 价格 了 。 

Google 在 俄 勒 交州 新 建 了 数据 中 心 ， 原因 就 是 这 里 水 资源 丰富 ， 有 
全 美 最 廉价 的 电费 ， 也 可 提供 水 冷 。 

















Google 在 俄 勒 交州 (Oregon) 的 数据 中 心 





现在 不 少 像 Google 这 样 的 公司 ， 都 在 宣称 自己 绿色 、 环 保 ， 这 并 不 
仅仅 是 政治 觉悟 高 ， 应 该 说 经 济 沉 悟 也 很 高 。 

不 只 Google 这 样 的 巨头 需要 关注 功 耗 ， 我 们 这 些小 市 民 实际 上 也 会 
关注 功 耗 ， 最 典型 的 一 个 例子 咒 是 ， 每 个 买 手机 的 人 都 会 问 : “这 歌手 
机 待机 时 间 多 长 ? ”这 实际 上 就 是 一 个 问 功 耗 的 问题 。 





在 现在 的 PC 里 ，CPU 和 显卡 是 功 耗 大 户 。 功 耗 大 ， 就 需要 散热 片 和 
风 局 散热 ， 不 只 耗 电 ， 增 加 体积 ， 而 且 风 局 产生 的 噪声 严重 影响 了 人 们 
的 健康 和 心情 。Intel 和 AMD 也 有 很 多 CPU 专 为 低 功 耗 而 设计 。 

性 能 和 功 耗 是 处 理 器 最 重要 的 两 个 硬指标， 这 两 者 很 难 同时 满足 。 
每 个 处 理 器 广 商都 会 根据 上 自己 的 目标 市 场 定 位 在 这 个 跷 跷 板 上 找到 一 个 
目 己 的 平衡 点 。 
































处 理 器 的 硬指标 : 高 性 能 和 低 功 耗 的 平衡 





3. 面积 


便于 携带 的 产品 ， 通 常 都 是 很 受 欢 迎 的 ，Sony 的 随身 听 就 是 这 样 的 
一 代 经 典 。 

现在 的 手机 ， 功 能 一 少 就 卖 不 出 去 ， 而 要 增加 功能 ， 和 溃 常 需要 增加 
新 的 芯片 ， 如 陀螺 仪 、 加 速 计 等 传感器 ，WiFi、GPS 等 无 线 芯 片 .……. 在 
能 装 进 口袋 的 手机 中 装 这 么 多 芯片 ， 也 是 一 件 不 简单 的 事情 ， 芯 片 体积 
绝对 不 能 


4. 接口 


处 理 器 并 不 是 独自 在 工作 ， 由 于 它 需 要 和 周围 的 需 件 配合 使 用 ， 因 
此 束 必 须 有 接口 和 外 部 进行 通信 。 如 宁 处 理 需 本 号 能 实现 茶 个 功能 ， 但 
古 因 为 缺乏 相应 的 接口 而 不 能 使 用 ， 就 非常 让 人 居 惜 了 。 大 多 数 处 理 需 
都 会 设计 很 多 的 接口 ， 因 为 有 的 用 户 会 用 这 几 个 接口 ， 有 的 用 户 会 用 刀 
外 几 个 。 














2.4.2 ”软件 指标 
1. 软件 开发 环境 


软件 开发 环境 和 处 理 器 的 关系 束 好 比 手 柄 和 游戏 机 ， 手 柄 不 好 用 ， 
游戏 机 的 可 玩 性 就 大 打折 扣 。 

友好 的 开发 环境 能 减少 软件 人 员 的 学 习 成 本 ， 提 高 程序 开发 、 调 试 
的 效率 ， 较 好 的 Bug 定 位 手段 也 非常 重要 ， 较 多 的 函数 库 也 能 大 大 减轻 
程序 员 的 工作 量 。 


2. 编译 需 性 能 


绝 大 多 数 程序 员 都 使 用 高 级 语言 〈《C/Java 等 ) 来 编写 程序 ， 编 译 器 
将 高 级 语言 转换 成 处 理 器 能 够 理解 的 二 进 制 代码 ， 也 就 是 说 ， 处 理 圳 的 
能 力 要 靠 编 译 器 才能 体现 出 来 ， 处 理 器 功能 再 强大 ， 如 果 没 有 一 个 好 的 
编译 器 来 展现 它 的 能 力 ， 就 好 比 茶 亚 里 的 饺子 ， 倒 不 出 来 。 


3. 软件 兼容 性 


毫 不 夸张 的 说 ， 兼 容 性 对 于 大 众 产 品 ， 其 重要 性 不 下 于 性 能 。 人 们 
一 旦 习惯 于 什么 ， 就 不 再 希望 改变 了 。QWERTY 键 盘 被 证 实 打 字 效率 
并 不 是 最 高 ， 有 人 推出 了 效率 更 高 的 键盘 ， 但 是 在 市 场 上 却 并 不 能 被 人 
们 接受 。 

《时 代 》 周 刊 对 过 去 10 年 来 的 10 大 失败 科技 产品 进行 了 总 结 ， 其 中 
微软 Vista 操 作 系 统 名 列 第 一 。Vista 操 作 系统 失败 的 原因 很 多 ， 如 运行 
速度 慢 等 ， 其 中 最 让 人 诉 病 的 ， 就 是 Vista 的 兼容 性 太 差 。 任 何 想 挑 战 兼 
容 性 的 产品 ， 几 乎 都 以 失败 告终 。 

处 理 器 也 是 一 样 ， 用 户 并 不 关心 新 处 理 器 的 技术 有 多 先进 ， 用 户 只 
会 关心 使 用 新 的 处 理 器 后 ， 程 序 是 否 执行 得 更 快 。 而 如 果 原 来 的 程序 在 
新 的 处 理 器 上 不 能 执行 ， 那 再 快 的 处 理 器 也 没有 用 。 

软件 的 兼容 性 可 以 分 为 二 进 制 兼容 和 源 代 码 兼 容 。PC 上 的 应 用 程 


软 实力 的 竞争 



































序 在 每 一 代 处 理 器 上 都 可 以 正常 运行 ， 这 就 是 二 进 制 兼容 。PC 上 的 程 
序 不 能 在 手机 上 运行 ， 如 果 程 序 在 手机 平台 上 重新 编译 一 下 ， 就 可 以 在 
手机 上 运行 ， 那 么 就 称 这 个 程序 为 源 代码 兼容 。 

硬件 的 成 本 受 摩尔 定律 的 影响 ， 成 本 越 来 越 低 ， 而 人 力 成 本 则 乏 年 
升 高 ， 因 此 ， 保 证 软件 的 兼容 性 对 客户 就 显得 非常 重要 。 


2.4.3 商业 指标 在 商 言 商 

1. 芯片 价格 

在 商 言 商 ， 买 东西 当然 得 看 价格 。 通 常 来 说 ， 一 件 东 西 的 价格 和 它 
本 号 的 价值 关系 并 不 大 ， 而 和 市 场 范 争 的 关系 较 大 。 髓 入 式 处 理 右 领域 
竞争 激烈 ， 芯 片 通常 售 价 较 低 ， 而 PC 行业 处 理 器 竞争 缓和 ， 因 此 售 价 


较 高 。 
2. 芯片 成 熟 度 


现在 的 电子 设备 几乎 都 会 使 用 处 理 器 ， 处 理 器 心 厂 是 整个 产业 链条 
的 最 抵 层 ， 如 果 根基 出 了 问题 ， 修 复 的 成 本 相当 之 高 ， 对 业务 的 影响 也 
是 非常 巨大 的 。 

1994 年 ， 美 国教 授 Thomas R. Nicely 发 现 Intel pentium 处 理 器 浮 点 运 
算 单元 的 一 个 bug， 让 Intel 损 失 了 4.75 亿 美金 。 


应 用 软件 
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开源 代码 





处 理 器 生态 环境 





是 一 个 人 在 战斗 


处 理 器 不 是 沂 立 存在 的 ， 它 需要 有 操作 系统 的 文 持 、 有 开发 工具 的 
支持 、 有 应 用 软件 的 支持 、 有 程序 员 的 文 持 等 。 

生态 链 的 维持 ， 比 处 理 器 本 身 更 加 重要 。x86 处 理 器 有 最 三 泛 的 程 
序 员 ， 有 最 多 的 工具 ， 有 最 多 的 现成 代码 ， 这 些 都 是 Intel 巨 大 的 优势 。 
有 了 完善 的 生态 环境 的 支持 ， 在 处 理 器 上 开发 程序 ， 就 会 事半功倍 。 








第 3 章 ”指令 集体 系 结构 一 一 处 理 


艇 的 外 表 


我 对 上 禹 说 西班牙 语 ， 
对 女人 说 意大利 语 ， 
对 男人 说 法 语 ， 

对 我 的 马 说 德语 。 























一 一 查理 五 世 ， 法 国 国 王 











导读 一 一 指令 集 的 威力 


2009 年 6 月 15 日 ，MIPS 公 司 网 站 发 布 新 闻 ， 中 国 科学 院 计算 所 取得 MIPS32 和 MIPS64 
Architecture 的 授权 ， 用 于 龙 蕊 的 开发 和 商用 。 在 处 理 器 领域 ，Architecture 指 处 理 器 的 指令 集体 
系 结构 ，Microarchitecture 指 处 理 器 的 微 架 构 ， 也 就 是 内 部 实现 的 结构 。 这 则 新 闻 翻 译 一 下 就 
是 : 龙芯 采用 了 MIPS 的 指令 集 。 新 闻 见 下 面 的 链接 : 

http://www.mips.com/news-events/newsroom/release-archive-2009/6_15_09.dot 

处 理 器 是 电子 、 信 息 领 域 最 关键 、 最 底层 的 技术 ， 一 直 被 国外 把 持 着 ， 龙 心 作为 我 国 自 主 
研发 的 处 理 器 ， 牵 动 着 各 方面 的 神经 ， 我 们 都 希望 自己 的 处 理 器 能 完全 自我 创新 ， 不 被 外 界 控 
制 ， 然 而 ， 龙 蕊 还 是 不 得 不 使 用 了 现存 的 指令 集 ， 这 归根 到 底 ， 还 是 指令 集 的 威力 太 强 大 ， 它 
的 强大 在 于 它 背 后 是 一 个 生态 链 ， 而 不 是 一 家 公司 。 

指令 集 就 像 语 言 ( 汉 语 、 英 语 等 ) 一 样 ， 定 义 一 套 语言 其 实 并 不 难 ， 难 的 是 你 要 让 别人 去 
接受 你 定义 的 语言 。 如 果 重 新 使 用 一 套 指令 集 ， 与 之 配套 的 编译 器 、 操 作 系 统 、 各 种 应 用 软件 
也 都 要 重新 编写 ， 这 样 的 工作 量 和 难度 ， 是 无 法 想象 的 ， 因 此 使 用 现存 的 指令 集 及 软件 ， 也 是 
无 奈 的 选择 。 
















































































































































































此 路 是 我 开 
此 树 是 我 霄 
要 想 过 此 路 
条 下 天 路 财 。 
应 用 软件 
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ISA 的 地 位 





3.1 指令 集 是 什么 
3.1.1 从 处 理 器 编程 模型 谈 起 一 一 一 切 从 模型 开始 


处 理 器 的 主要 任务 就 是 计算 ， 如 C= 二 A 十 B， 人 们 一 看 就 知道 这 人 句 话 
是 什么 意思 ， 但 是 处 理 器 只 能 认识 0 和 1， 不 认识 这 句 话 ， 而 且 处 理 器 更 
不 知道 CA 十 B 和 C=B 十 A 是 一 个 意思 。 因 此 ， 我 们 要 定义 一 套 规 则 让 
计算 机 能 够 理解 人 类 的 意 

我 们 将 A、B、C 称 为 操作 数 ，“ 十 ” 称 为 操作 码 。 处 理 器 中 做 运算 的 
单元 称 为 ALU “算术 逻辑 单元 ) ， 操 作 码 代表 了 ALU 中 的 一 个 运算 。 操 
作 数 存储 在 存储 器 〈Memory) 中 ， 由 于 从 存储 器 中 访问 数据 很 慢 ， 因 
此 在 离 ALU 很 近 的 地 方 放置 了 一 些 寄存 器 〈Registers) ， 这 样 中 间 计 算 
结果 就 可 以 存储 在 寄存 器 中 ， 不 用 每 次 都 经 过 存储 器 。 


tt #0 #1 | #2 6 
值 三 | :全 B C vi ee 
































C 上 ER 
WS BR 
Registers B 
A 
处 理 器 的 运算 模型 
一 个 基本 的 C= 二 A 十 B 操 作 ， 可 以 分 解 为 下 面 这 些小 的 步 又 来 完成 : 


load R3, #0; 从 内 存 地 址 0 处 取 A 这 个 值 ， 放 在 R3 中 
load R2, #1; 从 内 存 地 址 1 处 取 B 这 个 值 ， 放 在 R2 中 


add R0I，R3，R2; 把 R3 和 R2 相 加 ， 结 果 存 放 到 R0 中 
store RO, #2; 把 RO 中 的 值 存放 在 内 存 地 址 2 中 


每 行 语句 就 是 一 条 指令 ，load、add、store 为 操作 码 ， 后 面 跟着 的 是 











操作 数 ,“; ”后 为 注释 ， 这 种 指令 的 写法 就 是 汇编 语言 的 格式 。 处 理 需 
公司 对 外 发 布 的 指令 集 手 册 ， 惑 使 用 汇编 语言 来 进行 描述 。 


由 于 计算 机 只 能 认识 0 和 1 这 两 个 数字 ， 不 认识 load、add 这 些 字 ， 
此 ， 这 些 字 要 被 编码 为 计算 机 能 认识 的 格式 。 

我 们 对 操作 码 进行 编码 ， 假 设 处 理 器 只 有 4 条 指令 ， 那 么 每 条 指令 
用 2 bit 即 可 表示 : 


人 类 认识 的 操作 码 计算 机 认识 的 操作 码 人 类 认识 的 操作 码 计算 机 认识 的 操作 码 












































对 操作 码 编码 
同样 的 方法 ， 可 以 对 寄存 器 和 内 存 进行 编码 。 
人 类 认识 的 寄存 器 计算 机 认识 的 寄存 器 。 | 人 类 认识 的 寡 存 器 计算 机 认识 的 寄存 器 
RO 00 R2 10 
R1 01 R3 11 
对 寄存 器 编码 
这 时 候 ， 我 们 就 可 以 定义 add 这 条 指令 在 计算 机 中 的 格式 : 




















第 1 个 操作 数 第 2 个 操作 数 第 3 个 操作 数 


指令 格式 示例 


这 种 经 过 编码 后 的 指令 称 之 为 机 器 语言 。 










汇编 语言 
add R0, R3, R2 


机 器 语言 
01001110 














汇编 语言 与 机 器 语言 














处 理 器 在 读 到 指令 01001110 时 ， 根 据 指令 的 格式 进行 解码 ， 解 出 操 
作 码 和 操作 数 ， 然 后 执行 。 


3.1.2 计算 机 语言 一 一 人 与 计算 机 沟通 的 桥梁 


早期 人 们 编程 时 ， 都 是 使 用 汇编 语言 进行 编程 ， 编 译 占 将 汇编 语言 
翻译 成 机 絮语 言 ， 交 由 计算 机 执行 ， 汇 编 语言 描述 了 计算 机 的 运算 过 





程 ， 但 是 却 不 符合 人 类 的 思维 方式 ， 程 序 员 苦 在 其 中 。 

1977 年 ， 巴 库 斯 在 图 灵 奖 受奖 演说 时 讲 到 :“ 程 序 设计 能 从 冯 : 诺 伊 
受 风 格 中 解放 出 来 吗 ? ” 巴 库 斯 为 什么 能 得 到 图 灵 奖 ， 原 因 在 于 他 发 明 
了 世界 上 第 一 个 高 级 语言 Fortran， 他 当时 在 IBM 工 作 。 巴 库 斯 癌 人 们 介 
绍 了 一 种 全 新 的 编程 概念 : 程序 员 知 道 自己 想 要 做 什么 ， 而 并 不 需要 知 
道 是 怎样 做 的 。 高 级 语言 的 编程 风格 更 接近 于 人 类 的 自然 语言 ， 有 了 高 
级 语言 后 ， 程 序 员 就 摆脱 了 对 计算 机 的 依赖 。 

后 来 ， 又 陆续 出 现 了 CC 十 十 、Java 等 高 级 语言 ， 在 这 些 语言 中 ， 
两 个 数 求 和 就 可 以 写成 C= 二 A 十 B， 这 样 更 符合 人 们 的 表达 方式 ， 编 程 也 
更 为 方便 。 

C/C 十 十 这 些 语言 ， 离 人 们 的 自然 语言 还 很 远 ， 编 程 语言 也 一 直 辣 
着 更 智能 的 方 同 发展 。 在 C 语 言 中 ， 和 矩阵 的 乘法 运算 要 写 3 级 for 循 环 ， 
而 在 Matlab 中 ， 只 要 一 行 语句 就 可 以 了 。 在 数据 库 语 言 SQL 中 ， 在 一 个 
表 中 找 什 么 字段 ， 只 要 SELECT xx FROM xx 就 可 以 了 ， 如 果 用 C 语 言 ， 
则 需要 大 量 的 循环 和 比较 操作 。 

未 来 ， 编 程 语 言 将 发 展 到 和 人 类 的 自然 语言 统一 ， 电 脑 能 听 懂 人 类 
的 语言 ， 这 样 人 们 就 只 要 告诉 电脑 要 做 什么 ， 而 不 用 告诉 电脑 怎么 做 。 
最 近 ， 参 加 知识 竞赛 而 闻名 的 IBM 计 算 机 Watson 在 人 类 语言 理解 上 有 了 
很 大 的 突破 ， 它 还 能 够 回答 一 些 脑筋 急 转 弯 题目 ， 相 信 未 来 会 做 得 更 
好 : 


























交换 v[k] 和 v[k+1] 的 值 


temp=v[k]; 
y[k]=v[k+1]; 
v[k+1]=temp; 

Iw R15, 4 人 2 
lwR16， 4(R2 
sw R16, MR 
sw R15. R2 


1000110001100010000000000000000 
1000110011110010000000000000010 
1010110011110010000000000000010 
六 1010110001100010000000000000000 





人 类 和 计算 机 对 话 流 程 





3.2 ”指令 集 发 展 的 来 龙 去 脉 
3.2.1 。 CISC 时代 一 一 粗放 式 扩 张 


CISC 代 表 Complex Instruction Set Computer (复杂 指令 集 计 算 
机 ) ， 其 实 最 早 并 没有 CISC 这 个 词 ， 只 是 后 来 出 现 了 新 的 计算 机 设计 
思想 ， 于 是 将 采用 新 思想 开发 的 计算 机 称 为 RISC (Reduced ” Instruction 
Set Computer， 精 简 指 令 集 计算 机 〉 ， 将 以 前 的 计算 机 称 为 CISC。 这 就 
好 比 世 上 本 没有 旧 中 国 ， 只 是 新 中 国 出 现 了 ， 才 有 了 旧 中 国 。CISC 和 
RISC 也 分 别 代表 了 两 种 处 理 器 的 指令 集 类 型 。 

计算 机 发 展 早期 ， 人 们 使 用 汇编 语言 编程 ， 自 然 更 喜欢 强大 和 好 用 
的 指令 集 ， 处 理 器 的 设计 人 员 于 是 将 指令 集 设计 得 更 强大 、 更 灵活 。 后 
来 高 级 语言 出 现 ， 处 理 器 设计 人 员 又 在 指令 集中 增加 了 一 些 指令 集 和 特 
性 直接 完成 高 级 语言 对 应 的 某 些 功能 ， 如 复杂 的 寻 址 模式 ， 直 接 对 应 指 
针 的 运算 。 

那个 时 期 的 存储 器 既 昂 贯 且 速度 慢 ， 因 此 指令 使 用 了 变 长 编码 ， 以 
节约 存储 空间 。 由 于 一 条 指令 能 完成 很 多 的 功能 ， 对 内 存 的 访问 也 减少 
了 ， 这 样 也 减少 了 绥 慢 的 存储 器 访问 对 程序 性 能 的 影响 。 

当下 还 在 使 用 的 最 出 名 的 CISC 指 令 集 是 Intel 的 x86 指 令 集 。 


3.2.2” RISC 时代 一 一 优化 配置 资源 ， 合 理 提升 效率 


上 世纪 70 年 代 中 时 ，IBM 的 John ”Cocke 发 现 ， 很 多 时 候 ， 处 理 器 提 
供 的 大 量 指 令 集 和 复杂 寻 址 方式 并 不 会 被 编译 器 生成 的 代码 用 到 ， 套 用 
当下 流行 的 三 八 定律 ， 那 就 是 20% 的 简单 指令 经 常 被 用 到 ， 它 们 占 程 序 
总 指令 数 的 80%， 而 指令 系统 中 其 余 80% 复 杂 的 指令 则 很 少 使 用 ， 只 占 
程序 总 指令 数 的 20%。 

- 些 专 家 基于 这 种 思想 ， 将 指令 集 和 处 理 器 进行 了 重新 的 设计 ， 在 














新 的 设计 中 ， 只 保留 了 常用 的 简单 的 指令 ， 这 样 处 理 器 就 不 需要 浪费 太 
多 的 品 体 管 去 做 那些 很 复杂 又 很 少 使 用 的 功能 。 典 型 的 例子 就 是 mntel 的 
x86 指 令 集 手册 有 一 干 多 页 ， 而 一 般 的 RISC 处 理 器 指令 集 手 册 则 只 有 
3 

由 于 简单 指令 大 部 分 时 间 都 能 在 一 个 cycle 内 完成 ， 因 此 处 理 器 的 频 
率 得 以 大 幅 提 升 。 这 个 时 期 为 了 更 好 地 实现 流水 线 ， 指 令 集 采用 了 和 定 长 
编码 ， 这 样 指 令 的 译 码 过 程 就 简单 了 。 

由 于 指令 集 更 精简 ， 这 种 思想 的 指令 集 就 叫 RISC 指 令 集 ， 以 前 的 
指令 集束 叫 CISC 指 令 集 。RISC 是 计算 机 历史 上 的 一 个 飞跃 ，RISC 先 驱 
之 一 Steven Przybylski 半 开玩笑 地 把 RISC 定 义 为 : “1985 年 之 后 发 布 的 所 
有 处 理 器 *。ARM、MIPS、Power、DSP 等 都 属于 RISC 体 系 ， 其 中 MIPS 
最 遵守 RISC 规 则 。 

IBM、 加 州 大 学 伯克利 分 校 的 David ”Patterson、 斯 坦 福 大 学 的 John 
Hennessy 是 RISC 研 究 的 先驱 ， 后 来 很 多 了 商业 的 处 理 器 都 受到 他 们 的 影 
响 ，Power 处 理 器 来 自 IBM，PowerPC 处 理 器 起 源 于 Power，ARM.、 
SPARC 处 理 器 受到 伯克利 RISC 的 影响 ，MIPS 来 自 斯 坦 福 ，Alpha 处 理 器 
受到 它 的 影响 。 
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商业 处 理 器 受到 前 期 RISC 三 派 的 影响 
不 管 黑 猫 白 猫 ， 抓 到 老鼠 就 是 好 猫 


RISC 人 处理 器 通过 更 合理 的 微 架构 ， 在 性 能 上 超越 了 传统 的 CISC， 
在 最 初 的 较量 中 ，Intel 处 理 器 败 下 阵 来 ， 服 务 器 的 处 理 器 大 部 分 被 RISC 
阵营 所 占据 。 在 PC 领域 ， 由 于 众多 的 应 用 软件 要 求 处 理 器 后 向 兼容 ， 








3.2.3 ”后 RISC 时 代 





此 Intel 的 地 位 暂时 没有 动摇 。 

Intel 当 时 也 答 试 做 RISC 处 理 器 ， 但 是 因为 兼容 性 问题 ， 市 场 不 买 
账 。《 非 诚 幻 扰 2》 中 有 名 经 典 台 词 : “婚姻 怎么 选 都 是 错 ， 长 久 的 婚姻 
就 是 将 错 就 错 。” 秉 持 这 一 理念 ，Intel 决 定 一 条 路 走 到 黑 ， 将 兼容 性 进 
行 到 底 ， 但 是 CISC 架 构 很 难 提 升 性 能 的 压力 却 仍然 摆 在 Intel 面 前 。 不 过 
世界 上 没有 什么 迈 不 过 去 的 坎 ， 任 何 困难 都 有 解雇 的 方法 ，Intel 终 于 在 
Pentium Pro 处 理 占 问世 时 解决 了 这 一 问题 。 

David B. Papworth 和 他 的 同事 一 起 设计 了 Pentium Pro 处 理 器 ， 它 的 
微 架 构 是 Intel 著 名 的 P6， 在 很 多 教科 书 上 都 会 介绍 。 在 这 个 处 理 器 中 ， 
x86 指 令 集 被 先 解 码 为 类 似 于 RISC 指 令 的 微 操 作 (microoperations， 简 
称 为 uops) ， 以 后 的 执行 过 程 采用 RISC 内 核 ， 这 种 架构 一 直 延 续 至 今 ， 
成 为 一 代 经 典 。CISC 这 种 古老 的 架构 ， 通 过 巧妙 的 设计 ， 又 一 次 焕发 
新 春 ， 可 以 说 是 老 树 发 新 芽 的 典范 ，Papworth 也 因此 在 Intel 内 获得 很 多 


奖项 ， 成 为 Intel Fellow。 
eg ee 
CISC 指 令 集 








这 种 处 理 器 结构 相 较 于 没有 兼容 
性 压力 的 纯 RISC 处 理 器 要 复杂 ， 但 好 
在 有 兼容 性 的 优势 来 保证 市 场 。80、 
90 年 代 ， 服 务 器 厂商 很 多 ， 不 少 服 务 
器 厂商 都 自己 生产 处 理 器 ， 而 生产 处 
理 器 是 个 烧 钱 的 行当 ， 如 果 没 有 一 定 
销量 的 保证 ， 就 会 得 不 偿 失 ， 这 也 限 
制 了 处 理 器 芯片 的 研发 ， 而 Intel 有 良好 
的 PC 市 场 来 保证 研发 ， 因 此 x86 处 理 器 
的 性 能 逐渐 超过 了 同期 的 RISC 处 理 器 ， 抢 占 了 服务 器 市 场 ， 导 致 其 他 
的 处 理 器 厂商 只 能 向 低 功 耗 ， 或 面向 专 有 领域 的 和 谍 入 式 方向 发 展 。 

RISC 和 CISC 都 是 时 代 的 产物 ， 也 无 所 谓 谁 好 谁 坏 。RISC 作 为 新 兴 
事物 ， 在 很 多 思想 上 要 更 先进 ， 不 过 CISC 也 有 它 的 一 些 优点 。 

CISC 指 令 的 一 条 指令 常常 对 应 着 RISC 指 令 的 多 条 指令 ， 在 RISC 处 





处 理 堆 











“复杂 "外 表 下 的 "简单 " 世 











理 嚣 中， 过 分 精简 的 指令 数量 ， 使 得 RISC 处 理 器 与 存储 器 之 间 的 数据 
交换 增多 ， 而 存储 器 的 工作 速度 远 低 于 处 理 器 ， 很 容易 导致 性 能 恶化 。 

增加 处 理 器 性 能 的 一 种 方法 就 是 多 提供 指令 功能 ，RISC 中 的 “精简 
虽 令 ”也 越 来 越 变 得 不 精简 。x86 处 理 器 近 几 年 逐渐 增加 了 几 百 条 
MMX、SSE 指 令 ， 用 于 提高 多 媒体 程序 和 其 他 特殊 程序 的 性 能 。DSP、 
ARM、MIPS 等 处 理 右 每 代 也 会 增加 不 少 的 指令 ， 用 于 完成 特殊 的 任 
务 ， 哪 怕 是 这 些 功 能 很 少 被 使 用 。 

传统 的 RISC 指 令 集 为 了 译 码 方便 ， 指 令 采 用 定 长 编码 ， 因 此 程序 
空间 较 大 ， 虽 然 存储 成 本 相对 较 低 ， 但 是 在 很 多 应 用 下 ， 程 序 空间 较 大 
会 降低 Cache 的 命中 率 ， 降 低 程 序 的 执行 效率 。 

TI C64 DSP 采 用 定 长 指令 编码 ， 每 个 指令 32bit， 而 在 它 的 升级 版 本 
C64 十 内 核 中 ， 就 将 一 些 指 令 改 为 16bit， 这 样 大 大 减少 了 程序 长 度 。 
Tensilica 公 司 的 可 配置 处 理 器 内 核 Xtensa 也 是 采用 16bit/24bit 的 指令 长 
度 ， 同 样 的 例子 还 有 MIPS、ARM 等 处 理 器 ，ARM 的 Thumb 指 令 集 就 是 
16bit 的 ， 这 种 简单 的 变 长 指令 集 ， 并 没有 增加 多 少 译 码 电路 ， 不 过 却 能 
大 幅度 减少 程序 空间 和 功 耗 。 




















变 长 编码 指令 能 节省 指令 空间 
下 表 描 述 了 CISC 指 令 集 、RISC 指 令 集 、 后 RISC 指 令 集 的 一 些 特 性 


对 比 。 





CISC RISC 后 RISC 
指令 数目 几 百 个 小 于 100 个 几 百 个 
娃 址 方式 复杂 简单 简单 
指令 周期 变化 很 大 大 部 分 Icycle 大 部 分 lcycle 
指令 长 度 变 长 定 长 简单 的 变 长 
程序 所 需 指令 数 少 多 多 
寄存 器 数目 少 多 多 


是 耕 利于 流水 不 利于 利于 利于 


CISC、RISC、 后 RISC 指 令 集 的 区 别 列表 


处 理 器 / 指令 集 呈 现 出 螺旋 式 的 发 展 : 逐渐 做 大 ， 然 后 优化 ， 然 后 
又 做 大 .…… 从 量变 到 质变 ， 然 后 进入 下 一 轮 的 量变 和 质变 ， 只 是 
此 “ 质 ” 已 非 彼 “ 质 2 。 


性 能 
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指令 集 发 展 历 史 


外 令 集 发 展 历程 


3.3 ”指令 集 的 五 条 金 花 


处 理 器 公司 很 多 ， 品 和 脾 也 很 多 ， 而 指令 集 则 相对 稳定 ， 用 指令 集 对 
处 理 器 公司 分 类 是 比较 常见 的 做 法 。 有 5 种 指令 集 最 为 常见 ， 它 们 构成 
了 处 理 融 领域 的 5 东 金 花 。 














3.3.1 x86 一 一 硕大 的 大 象 


x86 是 史上 最 赚钱 的 指令 集 ， 几 乎 所 有 的 个 人 计算 机 都 使 用 x86 指 令 
集 的 处 理 器 。 

1978 年 ，Intel 推 出 8086、8088 人 处理 器 ，IBM-PC 采 用 8088 作 为 其 计 
算 机 的 大 脑 。1982 年 ，Intel 推 出 80286，IBM PC/AT (Advanced 
Technology) 选择 其 作为 自己 的 处 理 器 。 从 此 以 后 ，IBM-PC 兼 容 机 几 
乎 都 采用 Intel 的 处 理 器 。Intel] 也 陆续 推出 386、486、 奔 腾 等 处 理 器 ，x86 
因此 而 得 名 。 

由 于 IBM 在 选择 供应 商 时 为 减少 未 来 风险 ， 要 求 至 少 有 两 家 公司 同 
时 提供 产品 ， 因 此 Intel 将 x86 架 构 开 放 给 了 AMD (AMD 和 Intel 的 创始 人 
同 出 于 仙 童 半导体 )， 从 此 ，Intel 和 AMD 垄 断 了 个 人 计算 机 处 理 器 市 
场 。 由 于 AMD 也 采用 x86 体 系 结构 ，Intel 为 以 示 区 分 ， 后 来 在 自己 的 官 
方 材料 中 用 IA (Intel Architecture ) 来 蔡 代 x86， 不 过 业界 还 是 喜欢 用 x86 





这 个 名 字 。 

这 些 年 来 ，Intel 和 AMD 将 更 多 的 指令 和 功能 塞 进 这 个 陈旧 的 指令 集 
架构 中 ， 使 得 它 越 来 越 胱 肿 ， 远 不 及 后 来 发 展 起 来 的 其 他 指令 集 优雅 。 
不 过 ， 软 件 的 兼容 性 比 技术 更 重要 ，x86 成 为 个 人 计算 机 的 事实 标准 ， 
以 及 和 它 拥有 最 广泛 的 程序 资源 和 程序 员 资 源 ， 使 得 Intel 和 AMD 有 大 量 的 
利润 来 保证 其 研发 经 费 ， 将 更 多 的 先进 技术 融入 到 处 理 器 中 。 因 此， 虽 
然 x86 指 令 集 相 对 于 其 他 处 理 堪 指令 集 要 腑 肿 ， 但 是 这 并 不 妨碍 x86 处 理 
器 极 高 的 处 理性 能 。 

Intel 处 理 圳 开发 有 一 个 非常 著名 的 tick-tock〈 工 艺 年 ， 架 构 年 ) 战 
略 。Tick-Tock 承 是 时 钟 的 “ 吐 只 ”， 一 个 咬 蜀 代表 痢 一 秒 ， 而 在 Intel 的 处 
理 器 发 展 战略 上 ， 每 一 个 咬 噶 代 表 着 两 年 一 次 的 处 理 器 升级 。 处 理 器 有 
两 大 核心 技术 ， 一 是 芯片 制程 工艺 (32nm、22nm 等 ) ; 二 是 处 理 器 微 
架构 。Intel 称 它们 在 制程 工艺 和 微 架 构 上 保持 领先 。 制 程 工艺 决定 了 心 
片 内 部 可 以 使 用 的 品 体 管 的 数目 ， 品 体 管 数目 越 多 ， 则 心 卢 能 完成 的 任 
务 也 越 多 。 处 理 器 微 架 构 决 定 了 怎么 合理 的 利用 这 些 唱 体 管 ， 来 搭建 最 
适合 具体 应 用 的 处 理 器 。 

Tick-Tock 战 略 中 ，Tick (两 年 周期 中 的 第 一 年 ) 代表 着 制程 工艺 的 
提升 、 品 体 管 变 小 ，Tock《〈 两 年 周期 中 的 第 二 年 ) 是 在 维持 相同 工艺 的 
前 提 下 ， 推 出 新 的 处 理 器 微 架 构 。 这 样 在 工艺 和 微 架 构 的 两 条 提升 道路 
上 ， 总 是 交 蔡 进行 ， 一 方面 避免 了 同时 革新 可 能 带 来 的 失败 风险 ， 同 时 
也 加 快 了 新 产品 的 发 布 周 期 ， 并 最 终 提 升 产 品 的 范 争 力 。Intel 这 种 轮番 
式 的 进攻 方式 让 苋 争 对 手 咀 不 过 气 来 ， 服 务 器 处 理 器 纷纷 倒台 ， 大 多 数 
服务 器 都 投入 到 Intel 的 怀抱 。 
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3.3.2 ARM 一 一 稳扎稳打 的 蚁 群 


如 果 要 问 哪个 指令 集 的 处 理 器 销量 最 大 ， 很 多 人 会 认为 是 Intel， 不 
过 一 家 来 自 英 国 的 公司 让 我 们 大 跌眼镜 ， 这 家 公司 就 是 ARM 公 司 。 

ARM 公 司 从 厌 厌 无 名 到 风 生 水 起 也 不 过 就 是 十 几 年 时 间 ，ARM 占 
据 了 手机 市 场 90% 以 上 的 份额 ， 可 以 说 ，ARM 是 伴随 着 手机 一 起 繁荣 
起 来 的 。 手 机 上 的 应 用 处 理 器 ， 不 管 是 高 通 还 是 TI 的 ， 东 芝 还 是 三 星 
的 ， 在 内 部 都 采用 了 ARM 内 核 。 

ARM 架 构 属于 ARM ”Holdings， 这 是 一 家 总 部 位 于 英国 剑桥 的 公 
司 。 这 家 公司 是 在 1990 年 由 Acorn Computers、 人 苹果、VLSI Technology 
合资 组 建 的 〈 引 自 ARM 网 站 ) 。 第 一 代 ARM 处 理 器 〈ARM1) 最 早 可 
追溯 到 1983 年 10 月 ，Acorn 启 动 了 代号 为 Acom ”RISC 的 项 目 ， 由 VLSI 
Technology 负 责 生 产 。1985 年 4 月 26 日 ，VLSI 生 产 出 第 一 颗 Acom RISC 
处 理 器 ， 即 ARM1。 

ARM 和 x86 可 以 说 是 处 理 器 领域 商业 上 最 成 功 的 两 个 架构 ，ARM 只 
是 一 家 小 公司 ， 它 的 人 数 不 到 2000 人 ，ARM 架 构 之 所 以 这 么 受 欢迎 ， 














在 于 它 从 设计 之 初 就 将 低 功 耗 、 低 成 本 的 优先 级 放 在 了 高 性 能 的 前 面 。 

在 《三 国 演 义 》 中 ， 刘 备 向 庞统 讲述 了 自己 为 什么 能 从 一 个 卖 草鞋 
的 ， 成 长 为 三 分 天 下 的 诸侯 。 他 说 :“ 今 与 吾 水 火 相 敌 者 曹操 也 。 曹 以 
急 ， 如 以 宽 ， 曹 以 暴 ， 吾 以 仁 ; 曹 以 诵 ， 吾 以 忠 ; 每 与 操 相 反 ， 事 乃 可 
成 。” 其 中 “每 与 操 相 反 ， 事 乃 可 成 ?是 其 中 的 关键 。x86 就 是 处 理 器 领域 
的 曹操 ， 实 力 雄 厚 ， 处 理 器 性 能 高 。 与 x86 竞 争 的 面向 高 性 能 的 处 理 器 
都 逐渐 退出 了 历史 舞台 ， 而 ARM 却 与 x86 相 反 ， 侧 重 于 低 功 耗 、 低 成 
本 ， 虽 然 技术 实力 存在 不 小 的 差距 ， 却 活 得 很 洲 润 。 

ARM 公 司 自 己 不 生产 蕊 片 ， 而 是 同 半导体 公司 提供 指令 集 授权 、 
内 核 授 权 ， 其 他 公司 使 用 ARM 的 处 理 器 内 核 设计 生产 自己 的 处 理 器 芯 
片 。 全 球 很 多 半导体 厂商 都 使 用 它 的 内 核 ， 这 些 厂 商 每 年 设计 和 销售 的 
ARM 处 理 器 达到 40 多 亿 果 《数字 引 自 ARM 中 国 网 站 ， 每 年 都 会 增 
多 ) 。ARM 处 理 器 之 所 以 有 这 么 大 的 销量 ， 原 因 在 于 它 面 向 的 是 鞭 入 
式 市 场 。 欣 入 式 市 场 比 个 人 计算 机 市 场 拥 有 更 大 的 使 用 量 ， 一 个 家 庭 通 
常 只 要 一 台电 脑 ， 而 一 个 人 至 少 需 要 一 部 手机 ， 一 个 家 庭 每 4 年 换 一 次 
电脑 ， 一 个 人 每 两 年 就 要 换 一 次 手机 。 除 此 之 外 ， 机 顶 盒 、 数 字 电 视 、 
家 用 Soho 路 由 器 等 领域 都 会 使 用 ARM 内 核 的 处 理 器 。 


3.3.3 ” MIPS 一 一 优雅 的 孔雀 


如 果 要 说 最 经 典 的 RISC 处 理 器 ， 那 么 非 MIPS 英 属 ， 就 连 它 的 范 争 
对 手 ， 也 不 得 不 承认 它 的 优雅 ， 它 被 作为 处 理 器 教科 书 的 典范 ， 很 多 其 
他 的 处 理 器 ， 都 能 看 到 它 的 号 影 。 

MIPS 全 称 为 Microprocessor without Interlocked Piped Stages， 无 内 部 
互 锁 流 水 级 的 微 处 理 器 。MIPS 是 由 计算 机 界 的 大 牛 John L. Hennessy 领 
导 的 小 组 在 1981 年 开始 设计 的 ， 当 时 他 是 assistant professor。1984 年 ， 
Hennessy 和 其 他 人 一 起 创立 了 MIPS Computer Systems， 开 始 推出 商用 的 
MIPS 人 处理 器 。Hennessy 后 来 当 上 了 斯 坦 福 大 学 校长 ， 并 是 IEEE 和 ACM 
院士 ， 还 是 美国 国家 工程 研究 院 院士 及 美国 科学 艺术 研究 院 院 士 。 他 因 





























为 在 RISC 技 术 方 面 做 出 了 突出 贡献 而 荣获 2001 年 的 Eckert-Mauchly 奖 
间 ，Eckert 和 Mauchly 就 是 ENIAC 的 两 个 发 明 人 。Hennessy 也 是 2001 年 
Seymour ” ”Cray 计算机 工程 奖 得 主 ， 并 且 和 RISC 男 一 个 先驱 David A. 
Patterson 分 享 了 2000 年 冯 : 诺 依 曼 奖 。 

MIPS 初 期 ，MIPS 处 理 器 的 主要 客户 是 一 些 工作 站 公司 。1991 年 ， 
大 约 20 个 公司 坐 在 一 起 开 武林 大 会 ， 想 要 成 立 一 个 名 为 高 级 计算 机 环境 
(ACE) 的 联盟 ， 与 会 公司 包括 Compaq、Microsoft、DEC、MIPS 等 。 
ACE 的 宗旨 是 使 未 来 的 Unix、Windows 软 件 能 运行 在 任 一 一 款 使 用 
x86、MIPS CPU 的 机 器 上 ， 这 实际 上 束 是 想 力 挺 MIPS。 不 过 ACE 联盟 
事实 上 并 不 成 功 ，MIPS 的 主要 客户 之 一 DEC 决定 下 一 代 工 作 站 使 用 自 
己 的 Alpha 处 理 器 ， 于 是 SGI 成 为 MIPS 的 最 大 用 户 。1993 年 ，MIPS 已 经 
很 难 撑 下 去 了 ，SGI 为 了 保证 自己 的 芯片 供应 ， 只 好 出 手 收购 了 MIPS 。 

SGI 的 工作 站 在 90 年 代 后 半期 开始 亏损 ， 不 可 避免 地 影响 了 对 MIPS 
的 投资 ， 而 PC 市 场 的 蓬勃 发 展 使 得 Intel 有 大 量 的 资金 进行 处 理 器 研发 。 
在 这 个 背景 下 ，SGI 取 消 了 MIPS CPU 的 研究 ， 而 公开 承诺 将 采用 Intel 的 
安 腾 处 理 器 。 但 是 令 SGI 大 跌眼镜 的 是 ， 安 腾 处 理 器 叫好 不 叫座 ， 因 为 
它 使 用 新 的 指令 集 ， 和 x86 不 兼容 ， 销 量 远 低 于 Intel 的 最 悲观 估计 。SGI 
在 选择 处 理 器 时 ， 真 是 倒霉 到 家 了 。 

1998 年 ，SGI 面 临 着 日 益 增 长 的 资金 问题 ， 于 是 分 离 了 CPU 设计 部 
门 ， 重 新 成 并 了 MIPS technologies 公司 。2006 年 ，SGI 这 个 OpenGL 最 初 
的 创立 者 宣布 破产 。 

现在 的 MIPS 公 司 商 业 模 式 和 ARM 类 似 ， 以 出 售 指令 集 授 权 和 处 理 
器 内 核 授 权 价 利 ， 基 于 MIPS 架 构 的 处 理 器 在 通信 和 领域 有 一 定 的 市 场 ， 
Broadcom、Cavinum 等 公司 使 用 MIPS 内 核 。 

MIPS 处 理 器 本 来 也 算是 比较 经 典 的 处 理 器 ， 不 过 却 站 错 了 队 。 
MIPS 长 期 以 来 一 直 侧 重 于 高 性 能 ， 面 向 服务 器 和 工作 站 市 场 ， 但 是 它 
受到 了 x86 处 理 器 的 猛烈 狙击 ， 等 到 MIPS 回 过 头 来 做 低 功 耗 时 ， 已 经 无 
法 撼动 ARM 在 骨 入 式 市 场 中 先入 为 主 的 地 位 了 。 





























虽然 MIPS 在 商业 上 远 不 如 Intel、ARM 等 公司 成 功 ， 不 过 它 的 学 术 
地 位 很 高 。 一 方面 是 因为 它 的 设计 确实 经 典 ， 被 很 多 处 理 器 吸收 其 思 
想 ， 第 二 个 原因 是 美国 大 学 计算 机 体系 结构 课程 采用 的 教科 书 都 是 由 
RISC 先 驱 Hennessy 和 Patterson 合 著 的 ， 他 们 在 书 中 以 MIPS 为 原型 进行 讲 
解 。MIPS 毕 竟 使 用 的 人 少 ， 后 来 Hennessy 和 Patterson 又 与 时 俱 进 ， 在 教 
科 书 中 增加 了 x86 人 处理 器 的 描述 。 


昔日 的 贵族 


最 早 提 出 RISC 思 想 的 是 IBM 公 司 ，1990 年 ，IBM 推 出 了 高 性 能 的 
POWER (Performance Optimized With Enhanced RISC) 处 理 妖 。 
POWER 性 能 续 越 ， 一 直 以 来 都 被 用 在 IBM 目 己 的 服务 器 上 。1997 年 与 
国际 象棋 大 师 卡 斯 由 罗 夫 交战 的 深 赣 计算 机 ， 使 用 POWER2 处 理 器 ， 
2011 年 参加 知识 竞赛 电视 节目 “Jeopardy! ?挑战 人 类 的 Watson 计算 机 ， 
使 用 的 是 POWER7 处 理 器 。 

由 于 POWER 的 高 性 能 ，IBM 想 到 可 以 将 POWER 用 于 PC 领域 ， 因 此 
IBMI 引 Apple 抛 了 橄榄 枝 ，Apple 当 然 求 之 不 得 。Apple 一 直 都 使 用 
Motorola 的 处 理 器 ， 因 此 Apple 又 把 Motorola 拉 下 了 水 。 这 3 家 公司 一 拍 
即 合 ， 富 有 传奇 色彩 的 三 大 巨头 ， 同 时 又 是 在 PC 时 代 只 能 赚 吃 喝 的 3 个 
难 兄 难 弟 终于 结拜 在 了 一 起 ， 于 1991 年 成 立 了 AIM 联 盟 (AIM 为 
Apple、IBM、Motorola 的 3 个 首 字 母 ) 。AIM 对 POWER 处 理 器 进行 了 修 
改 ， 于 是 就 形成 了 PowerPC，PC 是 Performance Computing 的 缩写 。 

想 当 初 ， 华 果 和 IBM 是 两 个 死对头 ， 在 个 人 计算 机 市 场 打 得 你 死 我 
活 ， 而 如 今 为 了 共同 的 和 利益， 对付 Wintel 联 盟 ， 它 们 又 走 到 了 一 起 ， 可 
见 ， 在 商场 上 ， 没 有 永远 的 对 手 ， 只 有 永远 的 利益 。 

PowerPC 处 理 器 上 市 时 ， 人 性 能 要 强 于 同期 的 x86 处 理 右 ， 微 软 、 
IBM、Sun 等 公司 为 PowerPC 开 发 了 操作 系统 ， 但 是 众多 的 小 公司 却 不 
可 能 再 为 PowerPC 重 新 开发 应 用 软件 ， 由 于 缺乏 应 用 软件 ，PowerPC 难 
以 在 PC 市 场 维持 生计 。Motorola 的 半导体 部 门 长 期 亏损 ，2004 年 ， 








3.3.4 Power 








Motorola 将 其 半导体 部 门 分 拆 出 来 ， 成 立 了 Freescale。2005 年 ，Apple 宣 
布 以 后 采用 x86 处 理 器 ，AIM 联 盟 终 于 解散 。 

AIM 联 盟 虽 然 散 了 ， 但 是 IBM-Freescale 联 盟 却 还 存在 。IBM 的 
POWER 和 PowerPC 侧 重 于 服务 器 、 游 戏 机 领域 ， 如 任天堂 、 索 尼 、 微 
软 的 游戏 机 ，Freescale 的 PowerPC 侧 重 于 骨 入 式 市 场 ， 如 通信 、 汽 车 电 
柯 

指令 集 的 战争 已 经 打 啊 ，ARM 阵 营 拥 有 大 量 的 半导体 公司 及 软件 
公司 ，MIPS 也 有 不 少 ， 而 Power 阵 营 则 主要 是 IBM 和 Freescale 孤 军 作 
战 。2004 年 ，IBM 发 起 了 Power.org 联 盟 ，Power.org 发 布 了 统一 的 指令 集 
体系 结构 ， 将 POWER 和 了 PowerPC 体 系 结构 统一 到 新 的 Power 体 系 结构 
中 。Power.org 联 盟 由 IBM 和 Freescale 组 成 的 Power Architecture 顾 问 委 员 
会 负责 管理 架构 路 线 图 ， 协 调 Power 架 构 技 术 ， 使 得 从 低 成 本 到 高 性 能 
的 应 用 均 能 使 用 无 缝 兼容 的 指令 集 。 除 了 开放 了 指令 集 外 ，IBM 也 开始 
问 外 提供 内 核 授 权 ， 让 更 多 的 公司 加 入 到 Power.org 联 盟 中 。 





3.3.5 ” ”C6000 一 一 偏 安 一 隅 的 独立 王国 


以 上 介绍 的 这 些 处 理 器 ， 都 是 较 通 用 的 处 理 器 ， 还 有 一 种 较 专 业 的 
处 理 器 ， 它 的 名 字 叫 DSP (Digital ”Signal ”Processor， 数 字 信 号 处 理 
器 ) ， 专 业 做 信号 处 理 运算 的 。 

这 几 年 ， 全 球 的 无 线 通信 网 络 建设 如 火 如 茶 ， 视 频 网 站 、 视 频 通信 
系统 也 如 雨后春笋 般 消 现 出 来 ， 在 这 些 产品 或 服务 的 背后 ， 一 个 是 无 线 
通信 技术 ， 一 个 是 音 视 频 技 术 ， 这 二 者 的 共同 点 在 于 : 它们 都 需要 大 量 
的 信号 处 理 运 算 ， 而 这 正 是 DSP 的 强项 。 

20 世 纪 80 年 代 初 ，Motorola 和 TI 德州 仪器 ) 都 推出 了 自己 的 手机 
DSP 心 片 ，Motorola 要 强 于 TI， 但 由 于 Motorola 的 芯片 只 给 目 己 的 手机 
用 ,诺基亚 、 爱 立信 等 公司 选择 了 TI， 从 此 成 就 了 TI。 

现在 的 DSP 芯 片 主要 由 TI、Freescale、LSI 等 公司 推出 ，TI DSP 一 家 
独 大 ， 占 据 绝 大 部 分 市 场 份额 。TI 也 是 半导体 领域 的 先驱 之 一 ， 第 一 块 











集成 电路 的 发 明 人 、 诺 贝尔 奖 得 主 Jack Kilby 束 来 自 于 TI。 

C6000 系 列 DSP 是 TI 的 高 端 DSP，C62/C64/C64 十 是 定点 DSP 内 核 ， 
C67 是 浮 点 DSP 内 核 ，C66 是 定点 / 浮 点 融合 的 内 核 。 

与 C6000 直 接 竞争 的 ， 是 Starcore 体 系 结构 ， 最 早 由 Infineon、 
Agere、Motorola 的 合资 公司 设计 ， 公 司 经 过 多 年 的 分 与 合 之 后 ， 目 前 这 
个 体系 结构 的 DSP 由 Freescale 和 LSI 推 出 。 


3.3.6 ”至 今 仍 在 服役 的 元 老 们 


在 常用 的 指令 集中 ， 当 属 x86 资 历 最 老 ， 它 是 GISC 指 令 集 ， 发 布 于 
1978 年 ， 其 他 的 几 种 指令 集 都 是 RISC 指 令 集 ， 属 于 它 的 下 一 代 。x86 的 
元 老 当 属 8086，8086 在 现在 几乎 是 没有 人 用 了 ， 不 过 与 之 同时 代 的 一 些 
处 理 器 到 现在 还 在 发 光 发 热 。 

8051 这 个 单片机 中 的 经 典 ， 由 Intel 在 1980 年 开发 ， 后 来 授权 给 了 很 
多 其 他 的 公司 ， 现 在 还 在 很 多 领域 使 用 着 。 

还 有 一 款 处 理 器 寿命 更 长 ， 它 就 是 MOS Technology 在 1975 年 设计 的 
6502 处 理 器 。6502 是 由 Motorola 6800 原 班 人 马 独 立 后 出 去 设计 的 ， 后 来 
被 用 在 了 苹果 的 apple 开 电 脑 上 。 多 年 前 ， 当 我 在 一 家 公司 做 电子 词典 
时 ， 使 用 的 就 是 6502 处 理 器 ，6502 真 是 老 当 益 壮 啊 。 











3.4 ”地租 之 争 


“世界 潮流 ， 浩 浩荡 荡 ， 顺 之 者 昌 ， 逆 之 者 亡 。” 














孙中山 





对 酒 当 歌 ， 人 生 几 何 ， 行 业 纷 争 ， 去 日 天 多 。 

每 天 早上 ， 一 只 非洲 羚 首 醒 来 ， 它 就 知道 要 比 跑 得 最 快 的 非洲 雄 狮 
还 要 快 ， 人 否则 它 就 会 被 吃 岳 ;每 天 早上 ， 一 只 非 训 雄 狮 醒 来 ， 它 就 知道 
必须 比 跑 得 最 慢 的 羚羊 要 快 ， 人 否则 它 就 会 饿 死 。 不 管 你 是 狮子 还 是 羚 
诗 ， 太 阳 升 起 的 时 候 你 就 得 开始 跑 了 。 同 样 的 一 磊 在 处 理 器 行业 也 一 样 
发 生 着 。 

处 理 喜 过 布 于 我 们 生活 中 的 每 一 个 角落 ， 电 脑 、 汽 车 、 手 机 、 
MP3、 洗 衣 机 、 数 控 机 床 、 马 达 、 硬 盘 、 电 梯 等 领域 无 不 用 到 处 理 器 ， 
全 球 每 年 销售 的 处 理 需 数 目 超过 了 人 口 总 数 。 











处 理 器 无 处 不 在 


3.4.1 地盘 划 分 


处 理 需 应 用 在 PC、 服 务 器 、 瞬 入 式 这 三 大 领域 ， 各 个 指令 集 阵 营 
都 有 其 各 目的 地 盘 。 





§ 令 集 阵营 应 用 地 图 

在 服务 器 领域 ， 早 些 年 RISC 阵 营 的 处 理 器 较为 流行 ， 如 SUN 公 司 
的 SPARC、DEC 公 司 的 Alpha、HP 的 PA-RISC 等 ，Intel 也 推出 了 自己 的 
RISC 人 处理 器 Itanium。 现 在 随 着 x86 性 能 的 逐渐 增强 ， 同 时 拥有 兼容 性 的 
巨大 优势 ， 使 得 绝 大 部 分 服务 器 都 采用 x86 处 理 器 ， 尤 其 是 Intel 的 x86 处 
理 器 。 虽 然 ，IBM 的 高 端 服务 器 采用 自己 的 Power 处 理 器 ， 不 过 也 面临 





着 x86 的 强烈 冲击 。 
在 PC 领域 ,没有 苹 念 的 是 x86 的 天 下 ， 被 Intel 和 AMD 垄 断 ， 第 三 者 
没 法 插足 。 


嵌入 式 领 域 的 王者 当之无愧 的 是 ARM， 其 他 每 个 公司 也 都 有 自己 
的 一 块 领地 。 


3.4.2 x86、ARM 之 战 


PC 是 x86 的 地 盘 ， 手 机 等 移动 终端 是 ARM 的 地 稚 ， 而 现在 ，PC 和 
移动 终端 的 界限 已 经 分 不 清 了 。 界 限 不 明 ， 就 容易 引发 纷争 ， 就 好 像 国 





家 之 间 的 边境 问题 一 样 ， 版 图 交界 的 两 个 国家 ， 都 想 扩 大 自己 的 地 盘 。 
同样 ，x86 和 ARM 也 都 在 回 对 方 的 地 盘活 透 。 

上 网 本 是 PC 和 移动 终端 的 中 间 地 带 ， 这 也 正 是 它们 争夺 最 为 激烈 
的 地 方 。Intel 推 出 低 功 耗 的 Atom 处 理 嚣 ， 配 合 Windows 操 作 系 统 ， 将 上 
网 本 作为 PC 的 延续 ， 而 ARM 阵 营 的 高 通 、TI、Freescale 等 ， 也 都 推出 
了 基于 ARM 的 处 理 器 ， 配 合 Android 操 作 系 统 ， 将 上 网 本 作为 手机 的 延 


x86+Windows 阵 营 ARM+Android 吓 营 





Wintel 联 盟 VS“ 双 A” 联 盟 


3.4.3 ARM、MIPS 之 战 





由 于 ARM 公 司 和 MIPS 公 司 的 商业 模式 相同 ， 因 此 它们 也 经 常 被 人 
们 拿 来 作对 比 。 很 长 一 段 时 间 内 ， 在 处 理 器 本 身 的 技术 路 线 上 ，MIPS 
要 强 于 ARM， 但 是 在 商业 上 ，ARM 要 更 强 一 些 。 

设计 ARM 的 原始 想法 完全 来 自 于 MIPS 研 究 小 组 发 表 的 论文 ， 两 位 
优秀 并 敏感 的 英国 工程 师 Sophie Wilson 和 Steve Furber 看 到 论文 后 专门 跑 
到 美国 去 参观 实习 了 一 把 ， 回 去 后 就 说 服 老板 开始 设计 ARM1。ARM 十 
几 年 熏 熏 伴 储 走 来 ， 从 ARM1 一 直 做 到 现在 的 Cortex， 其 中 有 几 个 系列 





取得 了 巨大 的 商业 成 功 : ARM7、ARM9、ARM11 和 CorteX。 

一 直到 2000 年 前 后 ，ARM 和 MIPS 两 个 公司 在 业务 规模 上 还 是 基本 
旗 鼓 相当 的 ， 差 距 出 现在 之 后 的 开 泡沫 破灭 ，MIPS 的 地 盘 在 电信 和 网 
络 市 场 ， 受 到 了 惨重 的 打击 。 而 手机 日 渐 成 为 普通 消费 品 ， 因 此 ARM 
的 市 场 风 生 水 起 ， 从 此 这 两 家 公司 的 差距 增 大 。 

人 们 买 东 西 都 会 有 一 个 特点 喜欢 去 人 多 的 地 方 买 。 越 拥挤 ， 就 会 
觉得 店 子 越 好 ， 惑 越 要 挤 进去 。 股 市 也 有 类 似 的 一 句 话 ， 叫 ; 奶 涨 杀 
路。ARM 这 几 年 过 的 是 越 来 越 好 ， 而 MIPS 的 发 展 则 相差 甚 远 。 

现在 MIPS 和 ARM 的 市 场 定位 有 大 量 的 重合 ， 它 们 之 间 的 苋 争 将 会 
更 加 激烈 。 











3.5 汇编 语言 格 陈 - 没有 规 窍 不 成 方圆 


我 对 上 帝 说 西班牙 语 ， 
对 女人 说 意大利 语 ， 
对 男人 说 法 语 ， 

对 我 的 马 说 德语 。 

一 一 查理 五 世 ， 法 国 国王 


有 这 样 一 个 笑话 :中国 留学 生 在 国外 的 高 速 公 路 出 车 祸 了 ， 连 人 带 
车 翻 下 悬崖 ， 交 警 赶 到 后 癌 下 喊话 : “How are you? ”留学 生 回 答 :“Tm 
fine，thank you.” 然 后 交警 束 走 了 ， 留 学 生 于 是 死 了 。 

由 此 可 见 ， 语 言 是 很 重要 的 ， 程 序 员 学 习 处 理 器 的 语言 也 是 很 重要 
的 ， 一 来 可 以 更 了 解 处 理 器 ， 二 来 在 某 些 领 域 ， 如 从 事 破 解 的 ， 都 需要 
知道 一 些 汇编 知识 。 


3.5.1 ”机 右 字 长 


机 器 字 长 表示 处 理 器 一 次 处 理 数据 的 长 度 ， 主 要 由 运算 器 、 寄 存 器 
决定 ， 如 32 位 处 理 器 ， 每 个 寄存 器 能 存储 32bit 数 据 ， 加 法 器 支持 两 个 
32bit 数 进行 相 加 。 














32bit 寄 存 益 





32bit 寄 存 器 








32bit 寄 存 只 


32bit 字 长 机 器 
x86 指 令 集 的 鼻祖 是 1978 年 出 的 16 位 处 理 器 8086， 现 在 Intel 的 处 理 
器 都 是 32 位 /64 位 的 了 ， 但 是 仍然 能 兼容 传统 的 16 位 汇编 进行 编程 。 
32 位 处 理 器 的 地 址 总 线 通 常 都 是 32 位 ， 可 寻 址 范围 是 4Gbyte， 地 址 








总 线 越 宽 ， 可 寻 址 范围 越 大 。 通 常数 据 总 线 的 带宽 都 要 高 于 机 器 字 长 ， 
32 位 处 理 器 很 多 都 采用 64bit、128bit 的 数据 带宽 ， 这 样 可 以 一 次 读 取 更 
多 的 数据 。 

目前 租 入 式 处 理 器 大 都 以 32 位 为 主 ， 而 服务 器 和 PC 已 经 进入 了 64 
位 时 代 。 最 早 将 x86 扩 展 到 64 位 的 并 不 是 大 哥 Intel， 而 是 小 第 AMD。 
2003 年 ，AMD 推 出 Opteron 〈 上 卑 龙 ) ， 这 是 第 一 款 含 x86-64 技 术 的 处 理 
器 。AMD x86-64 完 美的 兼容 性 和 不 错 的 性 能 万 得 了 一 片 喝彩 ，Intel 六 
即 意 识 到 了 问题 的 严重 性 ， 并 迅速 推出 了 自己 的 64 位 架构 一 EM64T， 
总 算是 扳 回 了 一 局 。 











32 位 x86 处 理 器 的 寄存 器 


63 3] 15 A 


x86-64 的 寄存 器 


机 器 字 长 起 始 年 代 代表 产品 
4 位 处 理 器 1971 Intel 4004 
8 位 处 理 器 1972 Intel 8008 
Motorola M6800 
MOS technology 6502 
3 Zilog Z80 
16 位 处 理 器 1973 National Semiconductor IMP-16 
Intel 8086, $8088 
Motorola M68000 
Zilog Z8000 
32 位 处 理 器 1980 Bell Labs BELLMAC-32A 
Intel 386， 奔 腾 
Motorola M68020 
TI C6000 DSP 
MIPS，ARM 等 
64 位 处 理 器 1991 MIPS R4000 
Alpha 21064 
Intel Itanium 


各 时 代 的 代表 处 理 器 




















3.5.2 ”操作 数 个 数 


X86 处 理 器 由 于 设计 时 间 很 早 ， 那 个 时 候 唱 体 管 紧张 ， 寄 存 器 数目 
较 少 ， 因 此 指令 集 在 设计 时 ， 只 使 用 了 两 个 寄存 器 : 
ADD BX，AX; 源 和 目的 操作 数 共 用 一 个 寄存 器 。 

Intel 后 来 扩充 了 一 些 SSE 指 令 ， 有 些 SSE 指 令 也 使 用 3 个 操作 数 ，1 
个 源 操作 数 ，1 个 目的 操作 数 ， 还 有 1 个 操作 数 作为 mask 掩 码 ) 使 用 。 
后 来 的 RISC 指 令 集 ， 基 本 运算 都 使 用 了 3 个 操作 数 ，2 个 源 操作 

数 ，1 个 目的 操作 数 : 
ADD A1, A2, A3 


3.5.3 ”操作 数 顺 序 


在 x86 处 理 器 中 ， 目 的 操作 数 放 在 前 面 ， 在 C6000 ”DSP 中 ， 目 的 操 
作 数 放 在 最 后 。 


x86 指 令 格式 : ADD BX，AX; 表示 将 BX 和 AX 的 值 相 加 ， 结 果 
放 到 BX 中 。 

C6000 DSP 指 令 格 式 : ADD A1l，A2，A3; 表示 将 A1 和 A2 的 值 相 
加 ， 结 果 放 到 A3 中 。 

MIPS 指 令 集 也 是 3 个 操作 数 ， 不 过 和 C6000 DSP 不 同 的 是 : 目的 操 
作 数 是 第 一 个 操作 数 。 


小 问题 ， 大 折腾 


在 不 同 的 处 理 器 中 ， 相 同 的 数据 在 存储 占 中 的 存储 格式 可 能 不 一 
样 。 如 下 图 所 示 ， 数 值 0x12345678 在 大 并 字 节 序 和 小 端 字 节 序 处 理 占 的 
存储 器 中 存储 形式 分 别 为 : 





3.5.4 大 小 端 





存储 顷 编 址 








Er he 
大 戎 Fly | 


大 小 端 存 储 

大 端 、 小 端 这 两 个 术语 来 源 于 小 说 《 格 利 弗 游记 》 (Gulliver's 
Travels) 。 小 人 国 里 的 小 人 们 分 成 了 两 大 阵营 : 一 派 珊 人 破 鸡 重 “ 大 ”的 一 
头 吃 鸡 重 ， 一 派 敲 破 鸡蛋 “小 ”的 一 头 吃 鸡 重 。 其 实 怎 么 吃 都 没有 关系 ， 
只 是 习惯 不 同 。 

Intel 的 x86 处 理 器 使 用 小 端 字 节 序 ， 很 多 处 理 器 既 可 以 配置 为 大 
端 ， 又 可 以 配置 为 小 端 ， 在 不 同 字 贡 序 计算 机 之 间 通 信 时 ， 就 需要 注意 
数据 格式 的 转换 。 


3.5.5 ”指令 类 型 一 一 我 们 需要 哪些 指令 


处 理 喜 要 完成 计算 的 任务 ， 需 要 具备 哪些 指令 呢 ? 我 们 用 如 下 这 个 
计算 为 例 : 








count 


y= % coeff. * x. 


i=] 


顺序 执行 


/mA 
9 © 


跳 转 回去 
循环 的 实现 

Xi 为 输入 信号 ，coeffi 为 滤波 器 系数 。 要 让 处 理 圳 完成 这 些 工作 ， 
首先 需要 两 个 运算 : 乘法 和 加 法 。 与 此 类 似 的 还 有 移 位 、 减 法 等 指令 ， 
这 些 指令 航 称 为 算术 逻辑 指令 。 

除了 做 计算 外 ， 处 理 器 还 要 能 实现 循环 ， 上 面 这 个 计算 循环 了 
count 次 。 人 循环 是 由 跳 转 指令 来 实现 的 ， 跳 回去 执行 就 能 实现 人 循环。 如 
石 图 所 示 。 

循环 需要 在 一 定 条 件 下 跳出 ， 人 否则 融 成 死 循 环 了 ， 条 件 跳 转 指 令 能 
完成 这 个 功能 。 条 件 跳 转 指令 在 一 定 条 件 下 实现 跳 转 ， 它 能 实现 分 文 功 
能 ， 例 如 : “如 果 明 天 下 雨 ， 我 就 在 家 ， 和 否则 ， 我 就 出 去 玩 。” 这 个 功能 
就 可 以 用 条 件 跳 转 指 令 完成 。 跳 转 指令 也 称 为 控制 指令 。 

解决 了 这 些 基本 的 运算 问题 后 ， 还 剩 下 一 个 问题 ， 那 就 是 : 操作 的 
数据 在 哪 ? 操作 的 数据 都 放 在 存储 器 中 。 在 x86 指 令 集中 ， 算 术 逻 辑 指 
令 的 操作 数 可 以 是 寄存 器 ， 也 可 以 是 存储 右 ， 而 在 其 他 的 RISC 指 令 集 
中 ， 算 术 思 辑 指令 的 操作 数 只 能 是 寄存 器 ， 因 此 需要 移 使 用 导入 
(load) 指令 将 存储 需 中 的 数据 导入 到 寄存 器 中 ， 运 算 完 成 后 ， 再 用 导 
出 〈store) 指令 将 寄存 器 中 的 数据 导出 到 存储 器 中 。 这 类 指令 称 为 数据 
传送 指令 。 不 同 的 指令 集 ， 指 令 命名 、 寄 存 器 命名 不 一 样 ， 不 过 基本 
规则 类 似 。 

导入 、 导 出 指令 的 基本 格式 如 下 : 























load *Al， A2; 将 存储 器 某 地 址 处 的 值 导入 到 寄存 器 A2 中 ， 该 存储 器 地 址 记录 在 寄存 器 A1 中 
*A4; 将 寄存 器 A3 的 值 导出 到 存储 器 某 地 址 处 ， 该 存储 器 地 址 记录 在 寄存 器 A4 中 





store A3, 
有 了 这 3 类 指令 (算术 逻辑 指令 ， 控 制 指 令 ， 数 据 传送 指令 ) ， 处 
理 絮 吏 能 完成 各 种 复杂 的 运算 。 


3.5.6” 寻 址 方式 一 一 干 万 里 ， 我 追寻 着 你 


间 令 的 操作 数 可 以 是 一 个 具体 的 值 ， 如 100 称 为 立即 数 ) ， 也 可 
以 是 寄存 嚣 ， 也 可 以 是 存储 器 。 真 实 参 与 运算 的 值 ， 到 底 是 立即 数 ， 还 
是 在 寄存 右 中 ， 还 是 在 存储 右 中 ， 在 存储 右 中 的 哪个 位 置 ， 这 些 就 要 靠 
寻 址 方式 来 指定 。 以 RISC 指 令 集 的 代表 MIPS 为 例 : 
add $sl,， $s2，100; 源 操 作 数 是 寄存 器 $s2 和 立即 数 100， 称 为 立即 数 寻 址 
add $sl，$s2，$s2; 源 操作 数 是 两 个 寄存 器 ， 称 为 寄存 器 寻 址 


lw $si,，100{$s2); 存储 器 地 址 为 100+$s2， 将 这 个 地 址 处 的 值 导入 到 寄存 器 $s1l 中 ， 称 为 存 
储 器 寻 址 



















存储 器 寻 址 又 会 分 成 更 多 的 类 型 ，RISC 指 令 集 的 寻 址 方式 较为 简 
单 ，X86 的 寻 址 方式 则 非常 复杂 ， 不 过 x86 复 杂 的 寻 址 方式 也 会 在 内 部 转 
化 为 类 似 RISC 的 多 条 简单 微 操 作 。 








3.5.7” 总结 


指令 集 是 处 理 器 的 脸面 ， 就 如 同 容貌 对 于 人 的 重要 性 一 样 ， 程 序 员 
在 为 处 理 器 编写 程 厅 时 ， 指 令 集 就 是 他 她) 们 所 看 到 的 处 理 器 的 容 
貌 。 好 的 指令 集 ， 应 该 具备 如 下 特征 : 

兼容 性 : 新 一 代 处 理 器 的 指令 集 要 兼容 上 一 代 的 指令 集 。 

易 实现 ;指令 所 完成 的 功能 ， 在 处 理 器 硬件 上 要 容易 实现 。 

易 编 程 : 编程 人 员 容易 使 用 该 指令 集 进 行 编程 。 

高 性 能 : 指令 集 设 计 合 理 ， 以 使 得 程序 的 执行 效率 最 高 。 


一 一 一 





4 山 订 力 口 


人 











第 4 章 





re 


个 民族 有 王 些 关注 天 空 的 人 ;他 们 才 有 希望 。 

















导读 一 一 充 唐 的 汉 态 








汉 忌 ， 顾 名 思 义 就 是 “中 国人 的 芯片 >， 它 是 中 国 著名 的 学 术 造 假 案 ， 当 最 终 真相 大 白 时 ， 
原来 所 谓 的 汉 心 就 是 将 买 来 的 芯片 用 砂纸 打磨 ， 然 后 印 上 上 自己 的 Logo 而 成 。 被 打磨 的 芯片 ， 就 
是 前 面 提 到 的 Freescale 的 DSP 芯 片 。 





























汉 艺 的 生产 过 程 
虽说 龙芯 没有 自己 的 指令 集 ， 芯 片 也 是 别 的 公司 生产 的 ， 不 过 龙芯 仍然 可 以 义 正 言辞 的 说 
自己 是 自主 知识 产权 ， 反 观 汉 芯 则 不 能 ， 究 其 原因 在 于 : 龙 蕊 有 自己 的 微 架 构 ， 而 汉 蕊 只 有 上 自 
己 的 Logo。 微 架构 是 何 物 ? 为 什么 它 在 处 理 器 中 占据 如 此 重要 的 地 位 ? 我 们 下 面 细 说 。 















































4.1 跟着 顺 汶 学 流水 线 


流水线 是 处 理 器 中 最 基本 的 一 个 概念 ， 壳 想 当 年 攒 机 的 时 候 ， 听 别 
人 说 着 奔 3 几 级 流水 线 ， 赛 扬 几 级 流水 线 ， 对 我 们 这 种 只 知道 主 频 是 多 
少 的 人 来 说， 感觉 特 牛 X。 从 这 一 章 起 ， 我 们 就 从 流水 线 入 手 ， 来 介绍 
处 理 需 的 微 架 构 。 


4.1.1 顺 汐 的 2 级 流水 线 


2009 年 央视 有 部 热 播 大 剧 : 《我 的 兄弟 叫 顺 癣 》。 剧 中 顺 溜 是 一 个 
神枪手 ， 里 面 有 一 个 场景 ， 当 儿子 来 袭击 部 队 时 ， 顺 癣 癌 团 长 建议 ， 给 
和 目 己 专 门 负责 








《我 的 兄弟 叫 顺 溜 》 剧 照 
从 直观 的 思维 来 看 ， 有 人 帮 有 顺 汶 装 弹 ， 则 顺 溜 就 有 更 多 的 时 间 来 射 
杀 鬼 子 ， 下 面 我 们 再 更 严格 地 从 数学 的 角度 来 分 析 顺 渔 消灭 鬼子 的 效 
率 。 
假设 : 
(1) 顺 溜 枪法 命中 率 100% ， 一 枪 胜 命 ， 装 弹 的 人 枪法 太 差 ， 命 中 


率 儿 乎 为 0。 

(2) 子弹 射击 流程 : 先 上 膛 ， 再 射击 。 

(3) 上 膛 需 要 花费 5 秒 钟 。 

(4) 射击 需要 花费 5 秒 钟 。 

从 假设 可 知 : 如 果 顺 溜 采 用 原来 的 作战 方案 ， 即 一 人 一 枪 ， 自 己 打 
自己 的 ， 射 出 一 颗 子 弹 需 要 10 秒 钟 ， 那 么 1 分 钟 顺 溜 可 以 消灭 6 个 鬼子 。 

我 们 再 来 看 看 顺 溜 提出 的 作战 方案 : 顺 溜 在 射击 的 同时 ， 战 友 给 男 
一 文 枪 上 膛 ， 顺 溜 射 击 完 后 ， 立 即 拿 起 另 一 文 枪 射击 ， 这 样 束 给 顺 溜 节 
省 了 上 胖 的 时 间 ， 相 当 于 顺 溜 5 秒 钟 就 完成 一 次 射击 ，1 分 钟 顺 溜 可 以 消 
灭 12 个 鬼子 。 

我 们 用 图 来 描述 这 两 种 作战 方案 : 


SS $s Ss SS 











时 间 








原始 方案 
| SS 3S | SS | SS ) 


第 一 发 子弹 子弹 射击 
第 二 发 子弹 子弹 上 膀 
第 三 发 于 缠 
顺 汐 的 方案 
从 顺 激 方 案 的 图 上 ， 我 们 可 以 看 到 : 当 顺 溜 在 打出 第 一 发 子弹 的 同 
时 ， 第 二 发 子弹 正在 上 膛 ， 当 顺 溜 在 打出 第 二 发 子弹 的 同时 ， 第 三 发 子 
弹 正 在 上 胜 ， 子 弹 束 如 同 流水 一 样 ， 在 各 个 环节 流动 ， 最 后 一 次 流动 到 





了 小 鬼子 的 号 上 ， 这 个 过 程 被 形象 的 称 为 流水 线 。 

这 种 流水 线 的 方 采 使 得 顺 溜 的 射击 效率 提升 了 一 倍 ， 虽 然 浪 费 了 为 
外 的 人 力 给 顺 溜 装 弹 ， 但 是 并 不 是 每 个 人 都 是 顺 汐 这样 的 神枪手 ， 因 此 
浪费 专人 上 膛 是 完全 值得 的 。 


4.1.2 ” 顺 溜 流 水 线 的 深入 分 析 


在 上 一 节 中 ， 顺 汶 已 经 告诉 了 我 们 流水 线 的 基本 概念 ， 顺 溜 将 整个 
射击 过 程 分 成 了 两 个 步 又 (术语 称 之 为 节拍 ) ， 两 个 步骤 可 以 并 行 起 来 
执行 ， 只 是 时 间 上 进行 了 些许 的 错位 ， 这 就 是 流水 线 的 本 质 。 

这 条 流水 线 被 划分 成 了 两 个 节拍 ， 也 就 是 2 级 流水 线 ， 于 是 我 们 引 
出 了 流水 线 的 第 一 个 问题 : 流水 线 级 数 。 

众所周知 ，Intel 处 理 器 的 流水 线 级 数 要 远 蜗 于 ARM、DSP 等 散 入 式 
处 理 器 ， 那 么 流水 线 级 数 更 多 ， 有 什么 好 处 呢 ? 

还 是 以 顺 溜 来 举例 子 ， 假 设 顺 溜 将 射击 的 流水 线 划 分 成 4 个 步骤: 
上 膀 1、 上 膀 2、 射 击 1、 射 击 2 四 步 ， 由 于 整个 过 程 需要 10 秒 ， 那 么 每 一 


个 小 步骤 需要 2.5 秒 。 
















时 间 
第 三 发 子弹 上 用 1 上 笨 2 射击 ] 射击 2 
四 发 子弹 ”上 脐 1 上 膛 2 | 射击 ! | ”射击 2 | 
射击 的 4 级 流水 线 


从 图 中 我 们 可 以 看 出 ， 现 在 顺 溜 每 2.5 秒 就 可 以 冉 出 一 颗 子 弹 ， 于 
征 一 分 钟 可 以 消灭 24 个 收 人 ， 射 击 效率 提高 了 一 倍 。 如 果 换 成 计算 机 的 
术语 ， 那 融 是 处 理 器 的 工作 频率 可 以 提升 一 倍 。 现 在 大 多 数 众 入 式 处 理 
器 的 工作 频率 在 1GHz 左 右 徘 徊 ，Intel 处 理 器 的 工作 频率 早已 跳 过 了 
3GHz， 这 和 流水 线 的 级 数 有 密切 的 关系 。 总 而 言 之 ， 在 不 考虑 其 他 因 


素 的 情况 下 ， 流 水 线 级 数 越 多 ， 工 作 效率 越 高 。 

再 回 到 顺 汐 的 例子 ， 细 心 的 读者 可 能 会 发 现 : 顺 溜 并 不 是 要 求 一 个 
人 给 自己 上 膀 ， 而 是 要 求 两 个 人 。 从 直觉 来 看 ， 顺 溜 不 仅仅 是 个 神 枪 
手 ， 同 时 也 是 个 快 枪手 ， 射 击 的 速度 是 上 膀 速 度 的 两 倍 。 我 们 再 来 从 数 
学 的 角度 严谨 分 析 一 下 ， 这 也 引出 了 流水 线 的 第 二 个 问题 : 流水 线 的 效 
率 问 题 。 

先 修改 一 下 上 一 节 的 假设 : 上 膛 时 间 为 10 秒 ， 射 击 时 间 为 5 秒 。 我 
们 再 来 看 看 射击 过 程 : 





I0s 10s 10s 10s 
顺 溜 在 时 间 
0 子弹 | 等待 
第 发 了 间作 下 和 和 顺 注 在 


等 竺 





第 二 发 子弹 


射 
三 必 于 


不 规则 的 流水 线 示 例 
从 图 上 我 们 可 以 看 出 ， 即 使 是 顺 癣 射击 得 再 快 ， 也 要 等 到 战友 将 子 
弹 上 完 膛 ， 因 此 顺 汐 有 一 半 的 时 间 在 等 待 ， 什 么 事情 也 没有 做 。 本 着 能 
者 多 芭 的 原则 ， 让 顺 溜 采 着 是 极 大 的 浪费 ， 因 此 我 们 要 想 办 法 解决 这 个 
问题 。 
一 种 解决 方法 是 将 子弹 上 腾 细 分 为 两 个 步 又 
成 3 级 的 流水 线 ， 如 下 图 所 示 : 





上 膛 1 和 上 膀 2， 组 


| SS | 55S | $s | SS | 3 
时 间 
第 一 发 子弹 子弹 上 用 2 | 子弹 射击 
第 二 发 子弹 子弹 上 膛 1 | 子弹 上 膛 2 | 子弹 射击 


拆 分 耗 时 较 长 的 步 又 

采用 这 种 方式 后 ， 相 当 于 有 两 个 战友 给 顺 渔 上 膛 ， 一 个 做 上 膛 1 这 
个 步骤 ， 另 一 个 做 上 膛 2 这 个 步 又， 再 加 上 顺 溜 ， 这 3 个 人 组 成 一 个 流水 
线 ， 可 以 保证 顺 溜 5 秒 杀 一 人 。 

不 过 ， 很 多 事情 是 很 难 进一步 分 拆 的 ， 如 上 膛 就 不 能 分 成 两 个 步 
又 ， 那 么 这 时 候 怎么 办 呢 ? 我 们 可 以 采取 如 下 的 策略 : 配备 两 个 战友 给 
顺 溜 上 胖 ，1 个 10 秒 内 就 可 以 有 两 把 枪 的 子弹 上 胖 了 ， 在 下 一 个 10 秒 
内 ， 顺 溜 就 可 以 射击 两 次， 因此 也 能 保证 顺 汶 5 秒 杀 一 人 。 这 也 就 是 顺 
溜 要 求 给 自己 配 两 个 人 装 弹 的 原因 。 


10s 10s 10s 10s 














时 间 


| 1 
3 
1 
章 
tr 
渗 
光路 
击 潜 


给 耗 时 步骤 配置 多 个 重复 单元 
上 面 这 个 例子 ， 进 一 步 通用 化 ， 当 一 个 节拍 的 执行 时 间 比 别 的 市 担 
长 时 ， 这 时 候 流 水 线 的 效率 并 不 是 最 高 ， 如 图 : 








不 合理 的 流水 线 节拍 划分 
可 以 采用 如 下 两 种 方式 来 解决 这 个 问题 : 


拆 分 节拍 3 


2. 增加 长 节 担 的 处 理 单元 

















更 多 的 处 理 











单元 


流水 线 的 思想 可 以 说 是 用 在 生活 中 的 方方面面 ， 车 间 流 水 线 是 它 在 
工业 上 的 用 途 之 一 ， 科 学 管理 之 父 泰勒 认为 : 科学 管理 理念 的 精髓 之 一 


就 是 进行 流水 作业 。 


4.2 从 子弹 射击 到 指令 执行 
4.2.1 最 简单 的 3 级 流水 线 


子弹 的 射击 过 程 ， 可 以 被 分 成 3 个 步骤 : 上 膛 、 瞄 准 、 冉 击 。 指 令 
的 执行 过 程 ， 其 实 也 可 以 划分 为 类 似 的 3 个 步骤 : 取 指 、 译 码 、 执 行 。 


令 的 执行 过 程 和 射击 过 程 的 类 比 
指令 存储 在 内 存 中 ， 要 被 加 载 到 内 核 中 ， 这 个 过 程 就 是 取 指 。 
指令 是 经 过 一 定格 式 编码 的 。 例 如 ，MIPS 的 J 型 指令 格式 如 下 : 





指令 处 理 














6 bit | 26 bit 
op 跳 转 地 址 
MIPS 的 J 型 指令 格式 


前 面 6 bit 标 识 指 令 的 操作 码 ， 即 这 条 指令 是 干什么 的 ， 后 面 26 bit 是 
这 个 跳 转 指令 的 跳 转 地 址 。 指 令 是 一 串 0、1 序 列 ， 译 码 单 元 要 将 这 条 指 
令 包 含 的 有 用 数据 解 出 来 ， 如 果 是 跳 转 指令 ， 就 要 知道 它 的 地 址 ， 如 果 
是 运算 指令 ， 束 要 知道 的 它 的 源 操作 数 、 目 的 操作 数 在 哪 ， 这 样 处 理 器 





才能 进行 后 续 的 运算 。 
旨 令 的 执行 束 是 真正 进行 运算 的 步 台 ， 执 行 8 十 b 二 c 束 是 在 这 个 阶 
段 进行 的 。 


低 功 耗 险 入 式 领 域 的 经 典 产 品 ARM7 就 是 采用 这 种 3 级 流水 线 结 
构 : 


Time (时 钟 周 期 ) 
Oy cle 1: Cycle 2 iCydle 3 i 4 iCycle 5 iCycle 6 :Cycle rR 


| DCD CT 
中 


过 : 
指令 3 DZ | 

间 今 5 : [mm 
_、 | 


: : ; 
进 流水 全 并 行 出 流水 


ARM7 3 级 流水 线 结构 


流水线 节拍 摘 述 : 


流水 线 节 拍 描述 

IF Instruction Fetch， 取 指 
ID Instruction Decode， 译 码 
EX Execute， 执 行 


3 级 流水 线 

旨 令 的 执行 过 程 被 划分 为 3 个 步 又， 分 别 在 不 同 的 部 件 中 执行 。 头 
两 个 Cycle 是 指令 的 进 流水 线 阶 段 ， 这 时 候 处 理 器 内 部 的 3 个 部 件 没 有 百 
分 百 利用 起 来 ， 在 第 3 一 5 个 Cycle， 处 理 器 内 部 的 3 个 部 件 全 速 运行 ， 这 
时 候 处 理 器 的 执行 效率 最 高 。 第 6 一 7 个 Cycle 时 ， 处 于 出 流水 线 的 阶 
段 ， 指 令 完全 流出 流水 线 时 ， 指 令 执行 结 

执行 步骤 划分 得 越 细 ， 则 每 个 步 又 执行 的 时 间 越 少 ， 处 理 器 的 执行 
频率 可 以 越 高 。 通 用 CPU 的 流水 线 深度 要 比 区 入 式 处 理 占 长 ， 因 此 频率 
也 高 。 流 水 线 深度 越 深 处理 器 的 内 部 结构 也 越 复 杂 。 


4.2.2 ”史上 最 经 典 的 5 级 流水 线 


处 理 器 内 部 有 很 多 通用 寄存 器 ”， 这 些 寄存 器 用 来 存储 指令 的 操作 





数 ， 它 对 程序 员 可 见 ， 如 x86 有 8 个 通用 寄存 占 ，RISC 处 理 占 则 更 多 ， 
和 常 有 32 个 或 64 个 等 。 这 一 堆 寄 存 嚣 也 被 叫做 Register file (寄存 器 堆 )〉。 
在 流水 线 设 计 中 ， 为 了 确保 不 同 流 水 线 节 拍 不 会 相互 影响 ， 在 每 个 
阶段 引入 了 流水 线 寄存 器 来 分 隔 各 个 流水 线 节 担 : 


pp 


节拍 2 








时 钟 


流水 线 寄存 器 

寄存 器 就 像 是 红 灯 ， 信 和 号 只 在 固定 的 时 间 才 会 将 左 端 节 拍 的 值 传递 
给 右 端 节 拍 ， 这 样 各 个 节拍 的 工作 就 不 会 出 现 率 乱 。 

在 汇编 语言 中 ，ALU (算术 逻辑 单元 ) 直接 访问 通用 寄存 器 进行 运 
算 ， 在 硬件 实现 时 ， 通 用 寄存 器 中 的 数据 先 被 读 到 流水 线 寄存 器 中 ， 即 
ALU 的 输入 寄存 器 中 ，ALU 运 算 结 束 后 ， 数 据 会 存储 在 ALU 的 输出 寄存 
器 中 ， 最 后 再 送 回 到 通用 寄存 器 中 。 下 图 为 ALU、 通 用 寄存 器 、ALU 输 
入 输出 寄存 器 的 结构 图 。 

流水 线 寄存 器 对 程序 员 是 不 可 见 的 ，ALU 指 令 的 执行 节拍 可 以 进 一 
步 细 分 为 3 个 子 节拍 : 

(1) 从 寄存 器 堆 中 读 取 寄存 器 的 值 。 

(2) 进行 运算 。 

(3) 将 运算 结果 写 回 到 寄存 器 堆 中 。 























Register file 
(寄存 器 堆 ) 


ALU Input 
register 


(ALU 输 入 寄存 器 ) 





ALU Output 
Register 


(ALU 输 出 寄存 器 ) 
ALU、ALU 输 入 输出 寄存 器 、 寄 存 器 堆 的 关系 


根据 这 个 分 析 ， 处 理 右 的 流水 线 可 以 进一步 细 分 。MIPS 人 处 理 嚣 在 
设计 时 ， 将 处 理 器 的 执行 过 程 划 分 为 5 个 阶段 。 


流水 线 阶段 描述 

IF Instruction Fetch， 取 指 

ID Instruction Decode， 详 码 

EX Execute， 执 行 

MEM Memory Access， 内 存 数 据 读 或 者 写 
WB Write Back， 数 据 写 回 到 通用 寄存 器 中 


5 级 流水 线 
在 MIPS 的 5 级 流水 线 中 ， 从 寄存 器 堆 中 读数 据 到 ALU 输 入 寄存 器 这 
个 步骤 被 放 在 了 ID 阶段 ， 将 运算 结果 写 回 到 寄存 器 堆 被 作为 一 个 独立 的 
阶段 。 
到 目前 为 止 ， 我 们 都 认为 数据 已 经 存放 在 寄存 器 中 ， 事 实 上 ， 数 据 
被 存放 在 内 存 〈Memory) 中 ， 在 RISC 处 理 器 中 ， 数 据 要 先 从 内 存 
load〈 导 入 ) 到 寄存 器 中 ， 然 后 再 参与 运算 ， 然 后 将 运算 结 末 store〈 导 








出 ) 到 存储 器 中 去 。 因 此 ，MIPS 的 5 级 流水 线 增加 了 一 个 MEM 阶 段 。 

对 于 运算 指令 ， 在 MEM 阶 段 空 三 。 对 于 load 指 令 ， 在 EX 阶段 计算 
要 访问 的 地 址 ， 在 MEM 阶 段 从 内 存 中 将 数据 读 入 到 MEM 
register (MEM 和 WB 之 间 的 流水 线 寄 存 器 ) 中 ， 在 WB 阶 段 ， 将 MEM 
register 的 数据 写 回 到 Register file 中 。 对 于 store 指 令 ， 在 EX 阶段 计算 要 访 
问 的 地 址 ， 在 MEM 阶 段 将 寄存 器 中 的 数据 写 回 到 存储 器 中 。 

下 图 是 MIPS 5 级 流水 线 的 执行 顺序 图 : 

Time [时钟 周期 ) 


Cycle 1Cycle 2:Cycle 3iCycle 4:Cycle SiCycle 6:Cycle 7:Cycle 8:Cycle 9 





MIPS 5 级 流水 线 
这 5 级 流水 线 可 以 说 是 史上 最 经 典 的 流水 线 ， 早 期 的 MIPS、ARM9 


等 处 理 器 使 用 这 种 流水 线 ， 以 后 的 处 理 器 也 都 能 看 到 它 的 影子 ， 包 括 
x86 处 理 器 等 。 


4.2.3 ”DSP 更 深 的 流水 线 


不 同 的 处 理 器 会 有 不 同 的 流水 线 划 分 。 在 TI C6000 DSP 中 ， 所 有 指 
令 的 执行 都 可 分 为 Fetch 〈 取 指 ) 、Decode 〈 译 码 ) 、Execute (执行 ) 3 
个 大 的 步骤 ， 每 个 大 的 步骤 又 可 以 细 分 为 一 些小 的 步骤: 





Program Fetch Decode Execute 


PE SE BW ER DP DC BE "B22" "BS ER ES “EE6 




















C6000 流 水 线 节 拍 
TI 

Fetch PG Program Address Generate， 程 序 地 址 产生 

PS Program Address Send， 程 序 地 址 发 送 

PW Program Access Ready Wait， 程 序 访问 等 待 

PR Program Fetch Packet Receive， 程 序 取 指 包 接 收 
Decode DP Instruction Dispatch， 指 令 分 派 

DC Instmuction Decode， 指 令 译 码 
Execute El 执行 阶段 的 第 一 个 子 节拍 

DSP 流 水 线 描述 


在 MIPS 中 ，MEM 操 作 和 ALU 运 算 放 在 不 同 的 节拍 ， 在 DSP 中 ， 它 
们 都 被 放 在 指令 的 执行 节拍 中 。 在 MIPS 中 ， 寄 存 器 写 回 是 单独 一 个 节 
拍 ， 在 DSP 中 ， 这 个 过 程 也 被 放 在 了 执行 节拍 中 。 从 这 个 角度 来 看 ， 
DSP 的 节拍 划分 更 符合 软件 人 员 的 视角 ， 不 管 是 ALU 运 算 ， 还 是 MEM 
操作 ， 还 是 寄存 器 写 回 等 ， 这 些 都 是 指令 的 执行 过 程 ， 唯 一 的 区 别 在 
于 ， 不 同 指令 的 执行 时 间 不 一 样 。 

在 TI C64 内 核 中 ， 简 单 的 指令 〈 如 加 法 等 ) 只 需要 1 个 Cycle， 乘 法 
等 指令 需要 两 个 Cycle，load/store 需 要 5 个 Cycle， 分 文 指令 需要 6 个 
Cycle。 在 TI C66 内 核 中 ， 有 的 指令 甚至 需要 10 个 Cycle。 

下 图 为 C6000 DSP 的 流水 线 : 











Time (时 钟 周期 ) 





; Cycle 1 : Cycle 2 : Cycle 3 Cycle 4 Cycle 5 Cycle6 :Cycle 7 : Cycle 8 : Cycle9 


列 





DSP 流 水 线 


在 图 上 星 型 标注 的 位 置 ， 指 令 2 处 于 E2 节 拍 ， 指 令 3 处 于 E1 节 提 ， 





即使 指令 3 和 指令 2 使 用 相同 的 运算 单元 ， 这 条 流水 线 也 能 顺利 运行 ， 这 
是 因为 功能 单元 的 E1 和 E2 阶 段 也 是 流水 线 结构 的 。 


4.2.4 流水 线 上 的 冒险 一 免不了 矿 硅 绊 纤 


人 生路 上 总 是 辜 太 绊 绊 ， 流 水 线 也 一 样 。 流 水 线 中 每 个 节拍 硬件 被 
充分 利用 ， 这 只 存在 于 理想 的 马 托 邦 中 ， 现 实 总 会 出 现 这 样 或 那样 的 问 
题 ， 让 原本 顺畅 的 流水 线 出 现 停顿 ， 断 断 续 续 。 这 些 导 致 流水 线 出 现 停 
顿 的 因素 称 为 流水 线 冒险 〈Hazard) 。 下 面 我 们 就 来 看 看 哪些 情况 会 导 
致 流水 线 停顿 ， 以 及 怎样 解决 这 些 问 题 。 


1. 结构 冒险 


因为 处 理 器 资源 冲突 ， 而 无 法 实现 某 些 指 令 的 组 合 ， 就 称 该 处 理 器 
有 结构 冒险 。 

我 们 以 MIPS 流 水 线 为 例 ， 指 令 和 数据 都 存储 在 存储 右 中 ， 下 阶段 
需要 访问 存储 堪 ，MEM 阶 段 也 需要 访问 存储 器 ， 在 早期 的 处 理 器 中 ， 





程序 和 数据 存储 器 没有 分 开 ， 下 图 在 第 4 个 Cyde，IF 和 MEM 同 时 访问 存 
储 器 导致 其 中 一 个 操作 要 等 待 。 现 在 的 处 理 器 ， 程 序 存储 在 LIP Cache 
中 ， 数 据 存 储 在 LID Cache 中 (关于 Cache 在 下 一 章 介 绍 ) ， 单 独 访问 ， 


因此 不 存在 这 个 问题 。 
访问 存储 器 


指 亿 

和 本 到 本 [7.7 明生 加 
7 EE | CER 
| | | rl wl ex |vevl ws 
aT | | Tw ex [ve 


结构 冒险 示例 












时 上 时针 


2 





2. 数据 冒险 


流水 线 使 原 匈 有 先后 顺序 的 指令 同时 处 理 ， 当 出 现 茶 些 指令 的 组 合 
时 ， 可 能 会 导致 指令 使 用 了 错误 的 数据 。 


看 下 面 这 个 例子 : 
Time ( (时 钟 周期 ) 
cyeke 1 :Cycle2 | Cycle 3 | Cycle 4 : Cycles | cyele6 : 
| addRl,R2, R3 CD em CD el GD : 
| aadR4RLRS CCDCEDOEOGD 
了 : : : : : : 


R1 在 Cycle 5 才 会 被 写 回 ， 
这 里 使 用 的 寄存 器 值 不 正确 





寄存 器 访问 的 数据 冒险 
“add R1,R2,R3” 将 寄存 器 R2 和 R3 的 和 赋 给 R1，“add R4,R1,R5” 将 寄 
存 器 R1 和 R5 的 和 赋 给 R4， 很 明显 ，R1 在 第 1 条 指令 中 被 更 新 ， 然 后 在 第 


2 条 指令 中 使 用 ， 可 是 R1 必 须 在 第 5 个 Cycle 之 后 才 被 更 新 ， 而 指令 2 在 第 
4 个 Cycle 束 要 访问 R1， 这 时 的 R1 还 不 是 正确 的 值 ， 执 行 ci 


顺 
序 





一 种 解决 方法 是 在 这 两 条 语句 之 间 增 加 两 个 Cycle 的 等 
Time( 时钟 周 期 ) 
Cycle ] ; :Cycle2 2 ; Cycle 3 Cycle 4 Cycle 5: Cycle6 : :Cydle 7 Cycle8 


add R1, R2, R3 [mm| CT 
stall : 


3 


Cr mn 下 


2 


stall : 
add R4, RI, RS | 


四 
0 
bs 


gre 


通过 增加 等 竺 来 消除 数据 冒险 
延 时 两 个 Cycle，Cycle 5 将 第 1 条 指令 的 结果 写 回 到 寄存 器 R1 中 后 ， 





第 2 个 add 指 令 的 EX 单元 就 可 以 正常 执行 了 。 





这 种 方法 有 很 大 一 个 缺点 就 是 中 间 增 加 了 两 个 Cycle 的 等 等， 影响 





了 执行 效率 。 实 际 的 处 理 器 使 用 直通 〈Forwarding) 来 解决 这 个 问题 


当 硬 件 检测 到 当前 指令 的 源 操作 数 正 好 在 EXMEM 流 水 线 寄存 器 中 


时 ， 束 直接 将 EX/MEM 寄 存 器 的 值 传递 给 ALU 的 输入 ， 而 不 是 从 寄存 右 
堆 中 读数 据 ， 如 下 图 : 


Time ( 时钟 周 期 ) 
cyele1 | Gete2 : Cycle3 { Cycle4 Odes .Cyle6 : 


| nen CD 四 [四 EE 
舌 
序 | addR4.RILR5 | [m= : m= : 


四 四 





使 用 Forwarding， 解 决 数据 冒险 
不 只 寄存 器 访问 有 这 样 的 问题 ，Memory 访 问 也 有 同样 的 问题 。 看 


下 面 的 这 个 例子 : 


Time (时 钟 周期 ) 
: : Cycle ] | Cycle 2 Cycle 3 Cvcle 4 Cycle5 :Cycle6 


| dh lke) [m= LE NY ma GD 
夺 | store RI1,(R3) / [ml CD GD LMEM | CD 


Ri 在 Cycle 5 后 才 会 被 写 回 ， 
这 里 使 用 的 寄存 器 值 不 正确 









Memory 访 问 的 数据 冒险 

“load R1，R2) ”将 存储 器 中 的 值 装载 到 R1 中 来 ， 存 储 器 的 地 址 
在 R2 中 存储 ， “store R1，“【R3) ”将 R1 中 的 值 放 到 存储 器 中 去 。 在 Cycle 
4，1oad 指 令 的 MEM 阶 段 将 存储 器 中 的 值 装载 到 MEM/WB 寄 存 嚣 中， 在 
Cycle ”5，load 指 令 的 WB 阶段 将 MEM/WB 寄 存 器 的 值 装 载 到 寄存 器 R1 
中 ， 而 在 Cycle ”5，store 指 令 的 MEM 要 将 寄存 器 R1 的 值 放 到 存储 器 中 
去 ，R1 的 值 还 没有 被 load 指 令 更 新 。 这 个 数据 冒险 的 解决 方法 可 以 延 时 
1 个 周期 ， 也 可 以 采用 同样 的 Forwarding 方 法 ， 将 MEM/WB 寄 存 器 直通 
到 MEM 输 入 端 


Time 【时钟 周期 ) 


Cycle! : Cycle2 ; Cycle3 : Cycle4 ;Cycle5 Cycle6 | 


load R1, (R2) == [= | FE 区 z 
store R1, (R3) je Ci CE en 元 


便 用 Forwarding， 解 决 数据 冒险 
也 不 是 每 种 数据 冒险 都 能 解决 ， 同 时 又 不 引起 stall， 如 下 面 这 个 例 
子 ， 


顺 
序 


中 ， 


Time (时 钟 周期 ) 





ge 
: Cycle 1; Cycle2; Cycle3 ; Cycle4 : Cycle5s ;Cycle6 : 
指 |load R1,(R2) :CE [3 


ue 
sub R4. RI R3 : CE : CT (Eo: 
仍然 需要 stall 的 直通 示例 


sub 指 令 需 要 R1， 但 是 R1 最 早 也 要 在 Cycle “4 才 到 MEMVWB 寄 存 器 
即使 将 MEM/WB 寄 存 器 直通 到 EX 的 输入 端 ， 也 需要 延 时 一 个 Cycle 








才能 使 用 。 


3. 控制 冒险 
从 微观 的 角度 ， 在 流水 线 处 理 器 中 ， 指 令 是 并 行 处 理 的 ， 在 当前 指 


令 正 在 执行 时 ， 后 面 的 很 多 条 指令 已 经 完成 了 取 指 和 详 码 等 步骤 。 然 


而 ， 








在 程序 中 会 存在 很 多 的 跳 转 语 句 ， 如 傈 程序 的 实际 执行 路 径 是 要 跳 


转 到 其 他 的 地 址 去 执行 ， 那 么 流水 线 中 已 经 做 的 这 些 取 指 和 译 码 工作 就 
白 做 了 ， 这 就 是 流水 线 的 控制 冒险 。 此 时 ， 处 理 器 需要 排 空 流水 线 ， 跳 
转 到 新 的 地 址 处 重新 进入 流水 线 。 由 此 可 知 ， 跳 转 对 程序 性 能 的 损失 是 
巨大 的 ， 流 水 线 越 深 ， 损 失 越 大 。DSP 流 水 线 更 深 ， 我 们 以 DSP 流 水 线 
为 例 说 明 这 个 问题 的 危害 性 。 


在 下 面 这 个 DSP 流 水 线 中 ， 指 令 2 在 第 8 个 Cycle 执行 时 ， 发 现 要 跳 转 


到 其 他 的 地 方 ， 于 是 流水 线 后 面 的 PG 等 工作 就 全 白 做 了 。 


Time (时 钟 周期 ) 





:Cycle 1 : Cycle 2: Cycle3 : Cycle 4 : Cycle 5 :Cycle 6 : Cycle7 : Cycle 8 : 





逢 相仿 谍 


发 生 跳 转 时 的 性 能 损失 


x86 处 理 右 使 用 人 硬件 冲刷 流水 线 来 保证 发 生 跳 转 时 ， 流 水 线 能 正确 
执行 ， 在 DSP 中 ， 人 硬件 不 处 理 这 些 冒险 ， 而 是 改 由 软件 来 处 理 。DSP 通 
过 增加 NOP 来 排 空 流水 线 ， 在 跳 转 语句 后 增加 5 个 NOP 操 作 来 保证 流水 
线 正确 。 


loop; 跳 转 到 loop 地 址 处 


loop : MPY ; loop 为 地 址 标志 





Time (时钟 周 期 ) 


; Cycle1 ; Cycle2 ; Cycle 3 ; Cycle4 ; Cycle5 ; Cycle 6 : Cycle7 : 


关羽 少 荆 


GP 





》 寻 转 指令 的 执行 修改 了 程序 指针 


加 NOP 解 决 控制 冒险 
跳 转 指令 的 执行 阶段 修改 程序 指针 的 地 址 ， 加 了 5 个 NOP 后 ，MPY 
的 流水 线 正好 可 以 顺利 执行 。 
在 DSP 中 ， 编 译 器 可 以 将 指令 乱 序 ， 用 有 效 指令 代替 NOP 指 令 ， 这 
样 就 避免 了 跳 转 市 来 的 性 能 损失 。 
在 x86 CPU 上 ， 使 用 分 支 预 测 用 来 避免 跳 转 市 来 的 损失 。 


4.2.5 分 文 预测 一 一 以 古 为 镜 ， 可 以 知 兴 蔡 





高 级 语言 中 的 for、 让 、else、switch 等 ， 都 是 通过 跳 转 来 实现 的 。 正 
是 由 于 计算 机 指令 中 具有 能 够 改变 程序 流向 的 指令 ， 才 使 得 程序 结构 灵 
活 多 样 ， 程 序 功 能 丰富 多 彩 。 例 如 ， 下 面 这 个 for 循 环 : 
21: for() i<4; i++) i 
004RD446 jmp mainf+3lh (0040d451) 
48 mov eax, word ptr [ebp-4j 


44B add eax,1 
040D44E mov dword ptr [ebp-4],eax 

























0040D451 cmp dword ptr [ebp-4}],4 

0040D455 jge main+42h (0040d462) 

At 

2 SUm+= 工 ; 

0040D457 mov ecx,dword ptr [ebp-8] 

040D45A add ecx,dword ptr [ebp-4] 
40D45D mov dword ptr [ebp-8] ,ecx 






0040D460 jmp main+28h (0040d448) 
二 
0040D462 “pop edi 








for 循 环 在 x86 上 的 汇编 实现 
在 这 个 for 循 环 例子 中 ，jmp 是 无 条 件 跳 转 的 ， 直 接 跳 转 到 地 址 
0x0040d448 处 ， 将 代码 的 执行 过 程 组 成 一 个 回路 ， 达 到 循环 的 目的 。 
jge 是 条 件 跳 转 ， 在 一 定 条 件 下 跳 到 地 址 0x0040d462 处 ， 跳 出 for 循 环 。 
跳 转 和 分 支 (branch) 等 义 。 

















跳 转 使 程序 出 现 多 个 执行 路 径 ， 也 即 分 支 ， 如 果 我 们 能 提前 预测 出 
一 条 跳 转 指令 是 人 否 跳 转 ， 以 及 它 的 目标 地 址 ， 我 们 就 明确 了 程序 的 执行 
路 径 ， 可 以 修改 程序 指针 ， 提 前 控制 流水 线 从 正确 的 地 方 开 始 取 指 ， 这 
样 流水线 的 效率 能 有 极 大 的 提升 。 

人 们 党 说， 历史 总 是 惊人 的 相似 。 伟 大 君主 / 干 上 古 一 带 / 文武 /大 
茎 /大 厂 / 孝明 带 / 天 可 汗 / 唐 太 宗 / 李世民 教育 我 们 : “以 古 为 镜 ， 
可 以 知 兴 符 ”， 也 束 是 将， 读 历 史 可 以 预测 未 来 。 同 样 ， 我 们 也 可 以 根 
据 历史 信息 来 对 跳 转 指 令 进行 预测 ， 这 束 是 分 文 预 测 。 

采用 分 文 预 测 ， 处 理 如 猜测 进入 哪个 分 支 ， 并 且 基 于 预测 的 结果 来 
取 指 、 译 码 。 如 果 猜 测 正确 ， 束 能 节省 时 间 ， 如 果 猜 测 错误 ， 大 不 了 从 
头 再 来 ， 刷 新 流水 线 ， 在 新 的 地 址 处 取 指 、 译 码 。 因 此 ， 分 支 预 测 的 效 
果 ， 就 体现 在 预测 算法 的 准确 性 上 。 


1. 分 文 预测 算法 


无 条 件 跳 转 指令 必然 会 跳 转 ， 而 条 件 跳 转 指令 有 时 候 跳 转 ， 有 时候 
不 跳 转 ， 一 种 简单 的 预测 方式 就 是 根据 该 指令 上 一 次 是 否 跳 转 来 预测 当 
前 时 刻 是 否 跳 转 。 如 果 该 跳 转 指令 上 一 次 发 生 跳 转 ， 就 预测 这 一 次 也 会 
跳 转 ， 如 果 上 一 次 没有 跳 转 ， 束 预测 这 一 次 也 不 会 跳 转 。 这 种 预测 方式 
称 为 : 1 位 预测 (1-bit prediction ) 。 


1 


预测 为 不 吡 转 预测 为 跳 转 




















1 位 预测 


1-bit 预 测算 法 简单 ， 不 过 在 性 能 上 略 有 不 足 ， 原 因 在 于 它 太 容易 翻 








转 ，2-bit 预 测 则 更 加 稳 受 。 

2 位 预测 (2-bit predictor ) 。 每 个 跳 转 指令 的 预测 状态 信息 从 1 bit 
增加 到 2 _ bit 计数器 ， 如 果 这 个 路 转 执行 了 ， 就 加 1， 加 到 3 就 不 加 了 ， 如 
果 这 个 跳 转 不 执行 ， 就 减 1， 减 到 0 就 不 减 了 ， 当 计数 器 值 为 0 和 1 时 ， 恕 
预测 这 个 分 文 不 执行 ， 当 计数 器 值 为 2 和 3 时 ， 束 预测 这 个 分 支 执行 。2 
位 的 计数 器 比 1 位 的 计数 器 拥有 更 好 的 稳定 性 。 
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预测 为 不 跳 转 预测 为 跳 转 








2 位 预测 
由 2 位 预测 又 引申 出 了 很 多 其 他 的 分 文 预测 算法 ， 通 党 商用 处 理 需 
大 都 采用 多 种 集 略 的 组 合 ， 来 获得 更 好 的 预测 结果 。 


2. 分 文 预 测 实 现 


算法 是 基础 ， 有 了 算法 后 ， 就 可 以 在 处 理 器 中 实现 分 文 预 测 功能 。 
Intel 的 分 文 预测 模块 包含 了 3 个 单元 : 
(1) Branch Target Buffer (BTB) 。 
(2) The Static Predictor。 
(3) Return Stack。 
基本 的 BTB 结 构 如 下 : 


分 支 指令 的 地 址 。 ”预测 的 跳 转 地 址 预测 状态 信息 


fc 


所 壁 内 


里 的 


天 





用 预 渣 的 地 址 作为 

下 一 次 取 指 的 地 址 
直接 取 下 一 条 指令 

BTB (Branch Target Buffer) 

分 文 指 令 在 执行 后 ， 会 将 这 条 指令 的 地 址 及 它 的 跳 转 信息 记录 在 
BTB 中 。BTB buffer 不 会 太 大 ， 不 能 将 所 有 的 分 文 指令 都 存 进 去 ， 通 向 
采用 Hash 表 的 方式 在 入 。 在 取 指 时 ， 先 将 PC《〈 程 序 指针 ) 和 BTB 中 的 
分 文 指 令 的 地 址 进行 比较 ， 如 果 找 到 了 ， 说 明 这 条 指令 是 分 文 指 令 ， 并 
且 在 BTB 中 有 记录 ， 就 使 用 BTB 预 测 出 来 的 跳 转 地 址 。 如 果 没 有 记录 ， 
就 不 能 使 用 BTB 的 信息 了 ， 取 指 下 一 条 指令 。 

Intel 的 Branch Target Buffer 还 包含 了 历史 跳 转 信息 ， 用 于 预测 分 文 
指令 是 否 发 生 跳 转 。 

The Static Predictor 

当 分 文 指 令 在 BTB 中 记录 了 历史 信息 才能 使 用 BTB 进 行 预测 ， 当 分 
支 在 BTB 中 找 不 到 记录 时 ， 可 以 使 用 The Static ”Predictor (静态 预测 
器 ) 。 人 们 将 分 支 指令 的 执行 情况 做 了 大 量 的 统计 ， 从 中 总 结 出 一 些 特 
征 ， 并 将 这 些 特征 总 结 为 一 些 固定 的 集 略 ， 这 就 是 静态 预测 器 。 

当 指 令 被 解码 后 ， 它 是 不 是 分 文 指令 ， 以 及 要 跳 转 的 地 方 束 知道 
了 ， 只 是 不 知道 是 否 该 跳 。 一 般 来 说 ， 回 上 的 跳 转 ， 和 常用 来 组 织 成 循 
环 ， 这 个 跳 转 应 该 被 预测 为 执行 。 

静态 预测 器 通常 的 策略 是 : 同 下 跳 转 预测 为 不 跳 转 ， 向 上 跳 转 预测 

















为 跳 转 。 
TI| MOV 


向 上 跳 ， 组 成 一 个 回路 
很 可 能 是 一 个 循环 


branch 


向 上 跳 ， 组 成 循环 

Return Stack 

函数 调用 在 程序 中 大 量 出 现 ， 函 数 调用 与 返回 也 都 是 通过 跳 转 来 实 
现 的 。 例 如 ， 有 3 个 函数 调用 printf 函 数 地 址 固定 ， 调 用 时 
知道 地 方 ， 但 是 在 返回 时 ， 并 不 知道 该 返回 到 哪个 地 方 ，Return 
0 在 函数 调用 时 ， 将 函数 的 返 
回 地 址 压 栈 到 Return Stack 中 ， 当 遇 到 函数 返回 指令 时 ， 就 从 Return 
Stack 中 取出 地 址 。 





funl ss fun2 fin3 
printf 办 
3 个 函数 都 调度 printf 函 数 
3. 条 件 执行 


分 文 预 测 会 消耗 大 量 的 资源 ， 很 多 低 功 耗 的 处 理 需 没有 分 支 预测 ， 
如 TI 的 DSP， 它 采用 指令 的 条 件 执行 来 减少 跳 转 指令 。 例 如 ; 





WD 





用 DSP 的 汇编 表示 为 : 
[B80] ADD .L2 B8, 0, B6 
[!B0] ADD .Ll AM8 0, B6 

第 1 条 语句 在 B0 非 0 时 执行 ， 将 b 赋 给 a， 当 B0 为 0 时 ， 这 条 语句 为 
空 ， 不 执行 。 

第 2 条 语句 在 B0 为 O 时 执行 ， 将 c 赋 给 a， 当 B0 为 非 0 时 ， 这 条 语句 为 
空 ， 不 执行 。 

在 TI DSP 中 ， 只 有 几 个 寄存 器 能 作为 条 件 寄存 器 ， 对 于 短小 的 if、 
else 语 句 ， 条 件 执行 已 经 足够 ， 对 于 复杂 的 辽 、else 判 断 ， 条 件 执 行 就 无 
能 为 力 了 ，DSP 并 不 擅长 处 理 复 杂 的 控制 代码 ， 这 些 还 得 需要 分 支 预 
测 。 




















4.3 ”从 顺序 执行 到 乱 序 执行 一 一 因 时 制 宜 
4.3.1 乱 序 的 概念 


话说 有 一 日 ， 项 羽 率 兵 来 打 刘 邦 ， 刘 邦 命 十 兵 在 城 外 3 个 路 段 分 别 
设 3 个 陷阱 ， 刘 邦 给 出 如 下 的 指令 : 








指令 指令 描述 

指令 1 在 路 段 1 设置 陷阱 硫磺 干草 
指令 2 在 路 段 2 设置 陷阱 绊 马 索 
指令 3 在 路 段 3 设置 陷阱 地 了 矛 刺 





攻 城 战 
偏 巧 那 一 日 路 段 1 下 雨 没 干 ， 没 法 设置 陷阱 ， 众 士兵 就 准备 在 那里 
等 等 ， 这 时 一 个 聪明 的 士兵 残 说 :“ 敌 军 不 日 即 来 攻 城 ， 与 其 众人 在 此 
等 待 ， 何 不 先 将 陷阱 设 于 路 段 2 和 路 段 3， 符 得 路 段 1 干 时 ， 再 设 陷 阱 于 
路 段 1 。” 众 人 一 昕 ， 和 觉得 他 的 主意 不 错 ， 就 按照 他 的 方法 做 了 起 来 。 








实际 执行 顺序 指令 描述 

指令 2 在 路 段 2 设置 陷阱 绊 马 索 
指令 3 在 路 段 3 设置 陷阱 地 矛 刺 
指令 1 在 路 段 1 设置 陷阱 硫磺 干草 





这 位 士兵 提出 的 做 法 ， 就 是 乱 序 执行 ， 乱 序 执行 的 好 处 束 在 于 因 时 
制 宜 ， 节 约 时 间 。 





顺序 工作 等 路 段 1 干 路 段 1 设 陷阱 路 段 2 设 陷阱 路 段 3 设 陷阱 


EPE CT ET RT NEG TTD Be NED Te TH TE 0 pS Ee ,| || 
乱 序 工作 国人 路 段 1 设 陷阱 





乱 序 工作 能 节省 时 间 
指令 在 执行 时 利 币 因为 一 些 限 制 而 等 待 。 例 如 ，MEM 单 元 访问 的 
数据 不 在 cache 中 ， 需 要 从 外 部 存储 器 中 取 ， 这 个 过 程 通 党 需要 几 十 、 
几 百 个 Cycle， 如 果 和 是 顺序 执行 的 内 核 ， 后 面 的 指令 都 要 等 待 ， 而 如 果 
处 理 喜 足够 智能 ， 就 可 以 移 执 行 后 面 不 依赖 该 数据 的 指令 ， 这 就 是 处 理 
器 的 乱 序 执行 。 


4.3.2 ”指令 的 相关 


相关 是 影响 乱 厅 调度 的 罪魁 祸首 ， 如 末 指 令 2 的 执行 需要 依赖 指令 1 
的 结果 ， 我 们 束 说 这 两 条 指令 是 相关 的 ， 指 令 2 必 须 在 指令 1 后 面 执行 ， 
无 法 乱 序 。 

下 图 描述 了 指令 间 的 相关 性 : 









寄存 器 相关 控制 相关 


名 字 相 关 


指令 的 相关 性 


1. 寄存 器 相关 





当 两 条 语句 没有 共用 寄存 器 时 ， 它 们 之 间 是 不 相关 的 ， 而 当 两 条 语 
句 共用 寄存 器 时 ， 它 们 就 有 可 能 相关 。 
我 们 以 x86 汇 编 来 看 看 指令 间 的 相关 性 。 
《1) 先 读 后 读 。 
ADD BX ax ; 将 AX 和 BX 相 加 ， 存 放 到 BX 中 (前 面 的 寄存 器 为 目的 寄存 器 ) 
ADD CX,，AX ; 将 AX 和 Cx 相 加 ， 存 放 到 Cx 中 


这 两 条 指令 实际 上 是 没有 相关 性 的 ， 调 转 一 下 执行 顺序 ， 对 结果 没 





(2) 先 写 后 读 (Read-After-Write，RAW) 。 








ADD BX, AX ; 将 AX 和 BX 相 加， 存放 到 BX 中 
ADD CX, BX ; 将 BX 和 cx 相 加 ， 存 放 到 cx 中 


这 两 条 指令 都 用 到 BX， 指 令 1 输 出 BX 给 指令 2 用 ， 它 们 之 间 有 数据 
流动 ， 存 在 依赖 性 ， 因 此 也 称 为 数据 相关 。 





数据 相关 示例 


(3) 先 读 后 写 (Write-After-Read, WAR) 。 


ADD BX, ，AX ; 将 AX 和 Bx 相 加 ， 存 放 到 BX 中 


MOV AX, CX ;将 CX 的 值 赋 给 AX 





这 两 条 指令 都 用 到 AX， 指 令 1 读 AX， 指 令 2 写 AX， 如 果 直 接 将 两 
条 语句 调转 ， 执 行 结果 自然 是 不 一 样 的 ， 因 此 它们 具有 相关 性 。 不 过 如 
果 仔 细 分 析 一 下 ， 这 两 条 语句 之 间 并 没有 数据 流向 ， 在 逻辑 上 并 没有 相 
关 性 ， 引 起 它们 相关 性 的 原因 在 于 : x86 处 理 器 对 程序 员 可 见 的 通用 寄 
存 器 太 少 了 ， 指 令 不 得 不 共用 寄存 器 ， 这 样 才 导 致 指令 间 存 在 相关 。 
WAR 和 RAW 相反 ， 因 此 这 种 相关 也 称 为 反 相 关 〈Anti 


Dependencies) 。 
(4) 先 写 后 写 (Write-After-Write，WAW) 。 












MOV AX, BX ; 将 BX 的 值 赋 给 AX 
IOV_ AX， CX ; 将 CX 的 值 赋 给 AX 








这 两 条 指令 都 向 AX 中 写 ， 和 和 WAR 一样 ，WAW 的 两 条 指令 间 也 没 
有 数据 流动 ， 它 们 的 相关 是 因为 有 相同 的 输出 寄存 器 ， 因 此 被 称 为 输出 
相关 〈Output Dependencies) 。 

WAR 和 WAW 没 有 效 辑 上 的 相关 性 ， 只 是 由 于 共用 了 同一 个 寄存 器 
而 存在 相关 性 ， 它 们 被 称 为 伪 相 关 (False Dependencies) 或 者 名 字 相 关 


(Name Dependencies) 。 


2. 控制 相关 








程序 中 有 很 多 条 件 跳 转 ， 如 下 面 这 个 例子 : 


MOV 
CMP 
JNZ label 
ADD 














JNZ 是 个 条 件 跳 转 语句 ，XOR 指 令 的 执行 需要 依赖 于 JNZ 的 结 





这 种 相关 性 是 由 指令 的 控制 流 决 定 的 ， 因 此 被 称 为 控制 相关 。 
4.3.3 去 除 指令 的 相关 性 





这 些 指令 的 相关 性 限制 了 指令 的 乱 序 调度 与 并 行 调度 ， 需 要 去 除 这 
些 相 关 以 达到 较 好 的 指令 调度 。 


1. 去 数据 相关 


数据 相关 在 代码 中 肯定 是 有 的 ， 如 采 每 条 语句 都 没有 数据 相关 ， 那 
么 它们 就 不 能 组 合 起 来 完成 一 项 任务 。 不 过 ， 数 据 相 关 虽 然 不 能 完全 消 
除 ， 但 是 可 以 适当 减少 ， 如 这 段 代码 : 





X 到 已 小片 ; 
YO 
z= y+ dd; 


这 3 条 指令 都 是 相关 的 ， 如 果 改 成 这 样 : 


xX a+ 上 了; 
y= © 中 
2 ww XX+* y? 


第 1 条 和 第 2 条 指令 就 不 相关 了 。 
去 数据 相关 不 是 处 理 费 的 工作 ， 而 是 程序 员 或 者 编译 占 的 工作 。 


2. 去 控制 相关 


分 文 指 令 的 跳 转 方 同 不 确定 ， 后 面 的 指令 也 就 不 知道 该 不 该 执行 ， 
就 像 股票 一 样 ， 不 知道 以 后 是 涨 还 是 跌 。 股 民 通 常会 预测 出 哪 只 股票 
涨 ， 然 后 买 这 只 股票 ， 如 果 涨 了 ， 那 束 欢 欢喜 喜 ， 如 果 跌 了 ， 那 束 只 能 
京 叹 了 。 

处 理 器 也 可 以 借用 这 种 投机 行为 ， 预 测 出 跳 转 指 令 的 目标 地 址 ， 假 
设 按照 这 条 路 径 开 始 执行 ， 跳 转 后 面 的 指令 甚至 可 以 提前 到 跳 转 指令 的 
前 面 去 乱 序 执行 ， 如 果 预 测 正确 ， 那 当然 是 乡 大 欢喜 ， 如 果 预 测 失 败 ， 
就 从 头 再 来 。 这 种 方式 是 一 种 典型 的 投机 行为 ， 因 此 也 叫 投 机 执行 
(Speculative Execution) 。 由 于 分 文 预测 的 准确 性 通常 能 达到 98%% 以 
上 ， 这 种 投机 行为 相当 的 划算 ， 至 少 比 做 散户 划算 多 了 。 

分 文 指令 也 就 两 种 路 径 : 要 么 跳 要 人 么 不 跳 。Eager execution 方 法 将 
分 文 的 两 条 路 径 都 执行 ， 防 止 预测 失败 ， 这 是 典型 的 一 条 红心 ， 两 手 准 
备 ， 不 过 这 种 方式 对 资源 的 损耗 太 大 ， 一 般 的 乱 序 执行 内 核 都 不 使 用 这 
种 方式 ， 而 是 预测 一 条 路 径 ， 投 机 执行 。 


3. 去 伪 相 关 一 让 伪 军 投 茂 


什么 名 字 前 面 加 个 伪 总 不 太 好 ， 就 像 日 伪 军 ， 虽 然 不 是 日 本 军 ， 但 
是 也 是 政 匣 ， 也 需要 被 消 炙 。 好 在 伪 车 很 容易 投诚 ， 不 像 日 车 那样 项 


















































回 ， 普 死 效忠 天 星 。 在 指令 相关 中 ， 数 据 相 关 就 是 日 军 ， 伪 相关 束 是 伪 
军 ， 可 以 想 办 法 让 伪 相 关 投诚 ， 变 成 不 相关 。 


数据 相关 
比较 商 固 





数据 相关 和 伪 相 关 

处 理 器 的 ISA 寄 存 器 数目 通常 较 少 ， 编 译 器 在 将 程序 中 的 变量 映射 
到 寄存 器 时 ， 会 导致 多 个 变量 对 应 同一 个 寄存 器 ， 这 样 即使 是 不 相关 的 
指令 ， 也 会 使 用 同样 的 寄存 器 ， 导 致 了 名 字 相 关 。 知 道 了 这 个 病根 ， 我 
们 就 能 对 症 下 药 ， 将 ISA 寄 存 咒 重新 映射 到 处 理 器 内 部 的 物理 寄存 器， 
由 于 物理 寄存 器 较 多 ， 相 同 的 ISA 寄 存 器 可 以 映射 到 不 同 的 物理 寄存 
胡 ， 经 过 映射 后 ， 新 的 指令 就 能 使 用 不 同 的 物理 寄存 器 ， 指 令 间 的 相关 
性 也 就 消除 了 。 


程序 C=A+#B F=D+E 











寄存 器 映射 Was 
指 今 add a2, a3, al add a3, a4. a2 
寄存 器 重 命名 全 


内 部 寄存 器 


新 指令 add bl, b2, b3 add b4, bs. b6 
引起 伪 相 关 的 原因 及 解决 方法 举 们 





Cs 








在 上 页 图 中 ， 两 条 语句 C= 二 A 十 B 和 F= 二 DD 十 E 本 来 是 不 相关 的 ， 但 是 
由 于 ISA 寄 存 器 太 少 ， 变 量 映射 到 同一 个 寄存 器 上 ， 采 用 寄存 器 重合 
名 ， 将 ISA 寄 存 器 映射 到 新 的 物理 寄存 器 上 ， 这 样 新 的 指令 就 不 再 相关 
J 


4. 寄存 器 重合 名 


寄存 器 不 能 随便 更 改名 字 ， 否 则 原来 的 数据 依赖 关系 被 打 乱 ， 会 导 
致 错误 的 执行 结果 ， 那 么 怎样 才能 既 保留 原先 的 数据 依赖 关系 ， 又 能 将 
没有 数据 依赖 性 的 指令 的 寄存 器 改名 字 呢 ? 

这 里 介绍 一 种 在 处 理 器 中 经 常 实现 的 策略 ; 

(1) 将 每 条 指令 的 目的 寄存 器 映射 到 新 的 物理 寄存 器 。 

(2) 指令 的 源 寄存 器 映射 为 ISA 寄 存 器 最 近 映 射 到 的 那个 物理 寄存 








器 。 
(3) 当 本 条 指令 完成 后 ， 该 目的 寄存 器 映射 的 更 早 的 物理 寄存 天 
就 可 以 释放 了 。 
文字 还 是 太 抽象 ， 看 图 有 真相 : 


RI1. R2. R3. R4 
F1. F2. F3, F4 
1 add R3. R1. R2 EL FS RFS.Ed add F5. Fl F2 
数据 相关 人 vv 这 数据 相关 
2 add R4.R3. R2 F1. F2, F5, F6 add F6, F5, F2 pe 
反 相关 不 相关 
3 add R2, R1. R3 F1-F7 FES. F6 add F7. FI.FS en 
输出 相关 2 不 相关 
4add R2, R1, R4 Fl Fe FS. FE6 add F8. F1. F6 ey 
数据 相关 i 让 大 
5 add R4.R2 R3 F1. F8. F5.F9 add F9, F8, FS 
寄存 器 重 名 示例 


在 这 个 例子 中 ， 指 令 的 第 一 个 寄存 器 是 目的 寄存 器 ， 后 两 个 是 源 寄 
存 器 ，R1、R2、R3、R4 是 ISA 寄 存 器 ，F1...F16 是 物理 寄存 器 。 
R1，R2，R3，R4 一 开始 被 映射 到 F1，F2，F3，F4， 第 1 条 指令 的 








目的 寄存 器 是 R3， 因 此 将 R3 重 新 映射 到 F5， 图 中 的 粗 体 表示 对 目的 寄 
存 器 重新 映射 。 第 2 条 指令 的 源 操 作 数 需要 访问 R3， 就 使 用 R3 的 最 新 映 
射 值 一 一 F5， 这 样 就 保证 了 指令 2 和 指令 1 的 数据 相关 性 。 

指令 3 和 指令 2 有 反 相 关 ， 将 指令 3 的 R2 映 射 为 F7， 这 样 指令 3 和 指 
令 2 束 没有 相关 性 了 ， 即 使 指令 3 在 指令 2 前 面 执行 ， 也 不 会 影响 指令 2 的 
结果 。 

指令 4 和 指令 3 有 输出 相关 ， 经 过 寄存 器 重 命名 后 ， 指 令 4 和 指令 3 的 
R2 分 别 对 应 不 同 的 物理 寄存 器 ， 它 们 之 间 的 相关 性 就 去 除了 。 

同样 的 原理 ， 指 令 4 和 指令 5 的 相关 性 被 保留 。 

如 果 按 照 这 种 方式 映射 下 去 ， 物 理 寄 存 器 自然 会 被 使 用 完 。 因 此 ， 
需要 实时 的 释放 ， 以 备 重新 分 配 。R4 一 开始 映射 到 F4， 当 第 2 条 指令 执 
行 完 成 后 ，R4 的 值 就 在 F6 中 了 ， 以 后 访问 R4 时 ， 都 会 使 用 最 新 的 F6， 
而 不 会 使 用 F4， 这 样 F4 就 可 以 被 释放 了 。 

在 这 种 策略 中 ， 指 令 完全 不 需要 访问 ISA 寄 存 器 ， 只 需要 访问 物理 
寄存 器 。 


4.3.4 ”处 理 右 的 乱 序 执行 


前 面 介绍 了 乱 序 的 概念 及 去 相关 ， 这 里 开始 介绍 处 理 器 的 乱 序 执行 
结构 。 

1. Buffer 的 作用 一 去 耦合 

在 顺序 执行 内 核 中 ， 指 令 依 次 流 经 各 个 流水 线 单 元 ， 不 需要 进行 组 
存 ， 而 为 了 要 能 乱 序 执行 ， 首 先 需要 一 个 Buffer 来 缓存 还 没有 执行 的 指 
令 ， 然 后 在 这 个 Buffer 中 去 调度 指令 的 执行 顺序 。 乱 序 执行 内 核 的 基本 
模型 如 下 : 


























乱 序 执行 基本 结构 

现代 处 理 器 中 有 大 量 的 Buffer，Buffer 也 广泛 应 用 在 其 他 技术 领域 
及 生活 领域 中 ， 束 拿 电 冰箱 来 说 ， 电 冰箱 除了 冷冻 的 功能 外 ， 它 实际 上 
也 是 个 Buffer， 我 们 把 买 来 的 东西 放 进 去 ， 要 吃 时 ， 再 从 里 面 拿 。 

Buffer 有 两 大 功能 : 

(1) 去 耘 合 。 

(2) 抗 波动 。 

如 有 果 没 有 电 冰 箱 ， 每 次 我 们 想 吃 东西 时 ， 都 要 去 超市 ， 用 专业 术语 
来 讲 ， 这 就 是 粳 合 性 太 强 了 ， 如 果 超 市 关门 了 怎么 办 ?如 果 超 市 太 远 了 
怎么 办 ? 有 了 电 冰 箱 后 ， 从 超市 买 的 食物 就 放 在 电 冰 箱 中 ， 我 们 就 直接 
从 电 冰 箱 中 取 食 物 ， 而 不 需要 关注 超市 的 状况 了 。 电 冰箱 去 除了 人 和 起 
市 的 耘 合 。 

正常 情况 下 ， 我 们 是 每 天 买 每 天 的 食物 ， 不 过 有 时候 ， 我 们 知道 明 
天 会 有 事情 ， 没 有 时 间 买 食物 ， 因 此 今天 就 把 今 、 明 两 天 的 食物 都 买 
了 ， 这 样 明 天 就 不 会 俄 肚 子 了 ， 这 束 是 电 冰 箱 的 抗 波动 功能 。 

超市 


电 冰 箱 (Buffer) 起 隔离 作用 


电 冰 箱 的 去 看 合 





电 冰 箱 (Buffer) 起 抗 波动 作用 








电 冰 箱 的 抗 波 动 

在 上 面 的 图 中 ， 粗 线条 表示 东西 多 ， 细 线条 表示 东西 少 ， 有 时 候 买 
的 多 ， 有 了 时候 买 的 少 ， 有 了 时候 吃 的 多 ， 有 时 候 吃 的 少 ， 电 冰箱 的 进 和 出 
都 会 存在 一 定 的 波动 ， 电 冰箱 起 到 了 抗 波动 功能 ， 保 证 了 我 们 在 想 吃 时 
都 有 东西 吃 。 


2. 指令 调度 


在 前 面 乱 序 设置 陷阱 的 例子 中 ， 如 果 没 有 那个 聪明 的 士兵 ， 乱 序 也 
就 无 从 谈 起 。 同 样 ， 处 理 器 的 乱 友 执行 内 核 也 需要 一 个 调度 器 ， 分 析 指 
令 间 的 相关 性 ， 分 析 指 令 什 么 时 候 能 开始 执行 。 

中 令 什 么 时 候 能 开始 执行 呢 ? 

对 于 一 条 指令 来 说 ， 它 有 操作 码 和 操作 数 ， 操 作 码 描述 指令 要 做 什 
么 ， 处 理 器 会 安排 一 个 功能 单元 (function unit) 去 执行 它 。 操 作 数 描述 
指令 要 处 理 什 么 数据 ， 经 过 寄存 器 重 命名 后 ， 目 的 寄存 器 总 是 新 的 ， 因 
此 只 需要 关注 源 操 作 数 是 否 准备 好 即 可 。 所 以 ， 指 令 能 否 开 始 执行 ， 依 
赖 于 两 个 条 件 : 

(1) 是 否 有 空间 的 功能 单元 去 执行 这 条 指令 。 

(2) 该 指令 的 源 操作 数 是 否 已 经 准备 好 。 

只 要 满足 这 两 条 要 求 ， 指 令 束 可 以 去 执行 ， 而 不 需要 等 待 前 面 的 指 
令 完成 。 这 样 处 理 器 就 完成 了 乱 序 调度 及 并 行 调度 。 

以 前 面 经 过 寄存 器 重 命名 的 指令 为 例 ， 
































序号 指令 源 操 作 数 依赖 性 描述 执行 顺序 








| add F5, F1, F2 假设 F1、F2 已 准备 好 1 
2 add F6, F5, F2 F5 此 要 依赖 指令 1 2 
3 add F7, Fl, F5 FS 需要 依 束 指令 1 2 
4 add F8, F1, F6 F6 需要 依赖 指令 2 3 
5 add F9, F8, F5 FS 需要 依 款 指令 1 4 


F8 需要 依 床 指令 4 


处 理 器 会 记录 指令 源 操作 数 的 准备 状态 ， 当 指令 1 完成 后 ， 处 理 器 
会 通知 所 有 依赖 F5 的 指令 ，F5 已 经 准备 好 了 ， 指 令 2 需 要 的 两 个 源 操作 
数 F5 和 F2 都 已 准备 好 ， 它 就 可 以 被 发 送 到 指令 的 执行 队列 中 去 执行 。 同 
样 ， 指 令 3 也 可 以 准备 执行 ， 如 果 处 理 器 中 有 多 个 加 法 单元 ， 指 令 2 和 指 
令 3 束 可 以 同时 执行 。 指 令 2 完 成 后 ，F6 也 准备 好 了 ， 指 令 4 就 可 以 去 执 
行 ， 指 令 4 执行 完 后 ，F8 就 准备 好 了 ，F5 早 就 准备 好 了 ， 指 令 5 束 可 以 去 
执行 。 

在 这 个 调度 的 例子 中 ，5 条 指令 4 个 Cycle 束 可 以 完成 ， 而 使 用 顺序 
内 核 ， 则 需要 5 个 Cycle。 

处 理 器 内 部 需要 一 个 Buffer 来 绥 存 指令 ， 以 供 乱 序 调度 ， 这 个 
Buffer 就 是 保留 站 (Reservation Station) ， 完 成 寄存 器 重 命名 后 的 指令 
被 放置 在 保留 站 中 ， 等 到 操作 数 和 功能 单元 都 准备 好 时 ， 保 留 站 中 的 指 
令 束 能 被 分 派出 去 执行 。 


3. 指令 的 顺序 提交 


在 指令 的 执行 过 程 中 ， 通 常会 有 中 断 和 腊 常 产生， 如 在 下 面 的 这 个 
mT 








中 断 | 
指令 buffer ADD XOR MOY INC 


中 断 例 子 
XOR 指 令 执 行 完 后 ， 来 了 一 个 中 断 ， 中 断 处 理 一般 都 是 将 处 理 需 的 


ISA 寄 存 器 压 栈 ， 执 行 中 断 服 务 程 序 ， 然 后 再 退回 来 执行 中 断后 面 的 指 
令 。 精 确 中 断 〈Precise Interrupt) 要 求 中 断 前 的 指令 都 执行 ， 中 断后 的 
指令 都 没有 执行 ， 而 在 乱 序 执行 内 核 中 ，MOV、INC 指 令 有 可 能 提前 到 
XOR 前 面 执行 ， 那 么 怎么 来 实现 精确 中 断 呢 ? 

解决 方法 束 是 : 在 指令 乱 序 执行 之 后 ， 再 加 一 个 步骤 : 指令 顺序 提 
交 (In-order commit) 。 乱 序 执行 后 ， 指 令 的 结果 虽然 出 来 了 ， 但 是 这 
个 结果 并 没有 立即 提交 到 ISA 寄 存 器 中 ， 而 是 先 绥 存 起 来 ， 只 有 当前 指 
令 前 面 的 指令 提交 后 ， 这 条 指令 才能 提交 。 

令 的 顺序 提交 也 能 解决 投机 执行 出 错 的 问题 ， 如 下 图 所 示 : 


指令 buffer ADD JNZ MOV XOR 














投机 执行 的 示意 图 

分 支 预测 单元 预测 到 JNZ 跳 转 到 XOR 处 执行 ， 乱 序 执行 让 XOR 指 令 
在 ADD 前 面 执行 ， 不 过 天 有 不 测 风 云 ， 处 理 器 执行 到 JNZ 时 ， 发 现 分 文 
预测 单元 预测 错 了 ， 实 际 上 应 该 执行 的 是 MOV 这 个 分 文 ， 使 用 顺序 提 
交 抹 略 ，JNZ 后 面 指令 的 结果 都 没有 提交 ， 可 以 直接 抛弃 ， 重 新 开始 执 
行 MOV 这 条 路 径 即 可 。 

为 了 实现 指令 的 顺序 提交 ， 处 理 器 内 部 使 用 了 一 个 Buffer， 叫 做 重 
排序 缓冲 区 (ROB，Re-order ”Buffer) ， 多 数 的 学 术 文 章 都 叫 这 个 名 
字 ， 龙 忌 把 这 个 buffer 叫 做 Reorder ”Queue， 简 称 ROQ (总 要 有 所 区 别 
嘛 ) 。 

每 条 完成 寄存 器 重 命名 的 指令 都 要 送 到 ROB 中 ，ROB 中 的 指令 按照 
初始 顺序 存放 ， 指 令 经 乱 序 执行 后 ， 只 是 修改 了 处 理 器 内 部 的 物理 寄存 
器 ， 并 没有 修改 处 理 器 的 ISA 寄 存 器 〈 汇 编 指令 能 看 到 的 寄存 器 ) ， 指 
令 在 提交 时 ， 按 照 ROB 中 的 顺序 ， 顺 序 地 修改 处 理 器 的 ISA 寄 存 器 。 


4. 乱 序 执行 总 结 


简单 来 说 ， 指 令 在 乱 序 执行 内 核 中 的 处 理 过程 可 分 为 3 个 步 又 : 

















顺序 发 射 一 一 乱 序 执行 ”一 > 顺序 提交 





指令 乱 序 执行 步骤 
乱 序 执行 步骤 工作 内 容 
In-order issue 顺序 发 射 ， 负 责 安排 任务 
Out-of-order execution 乱 序 执行 ， 负 责 执行 任务 
In-order commit 顺序 提交 ， 负 责 更 新 结果 


下 图 为 乱 序 执行 内 核 的 基本 结构 图 : 


指令 分 派 





乱 序 执行 内 核 结 构图 
取 指 、 译 码 、 分 支 预测 和 顺序 执行 内 核 一 样 ， 译 码 后 ， 指 令 经 过 寄 
存 器 重 命名 ， 去 除 伪 相 关 ， 然 后 进入 指令 分 派 模块 ， 指 令 分 派 模块 决定 
什么 时 候 将 指令 分 派 到 什么 执行 单元 去 执行 。 指 令 同 时 会 进入 指令 提交 


单元 ， 它 记录 了 指令 的 原始 顺序 ， 用 于 指令 的 顺序 提交 ， 同 时 它 会 将 分 
文 指 令 的 实际 执行 信息 更 新 到 分 文 预测 单元 。 

乱 序 执行 比 顺序 执行 需要 耗费 更 多 的 处 理 器 资源 ， 通 党 只 有 高 端 处 
理 器 才 会 使 用 。 最 近 ，ARM Cortex-A9 也 引入 了 高 端 处 理 器 常用 的 乱 序 
执行 (Out-of-Order Execution ) 和 投机 执行 (Speculative Execution ) 。 





4.4 处 理 亏 并 行 设计 一 一 并 行 ， 提 高 性 能 的 不 二 
法 门 
Flynn 分 类 
处 理 器 就 是 处 理 一 系列 指令 和 数据 的 设备 ， 因 此 ， 从 指令 和 数据 这 
两 个 维度 ， 可 以 对 处 理 占 的 系统 结构 分 类 。1966 年 ，Flynn 将 处 理 紫 系 
统 结构 分 成 了 如 下 4 类 : 
指令 


多 指令 ， 单 数据 多 指令 ， 多 数据 
(MISD) (MIMD) 


单 指令 ， 单 数据 单 指令 ， 多 数据 
(SISD) (SIMD) 





数据 
Flynn 分 类 
SISD (single instruction single data) ， 一 次 处 理 一 条 指令 ， 一 条 指 
令 处 理 一 份 数据 ， 早 期 的 处 理 器 都 是 这 种 形式 。 
SIMD (single instruction multiple data) ， 一 次 处 理 一 条 指令 ， 一 条 
指令 能 处 理 多 份 数 据 ， 这 种 方式 称 为 数据 并 行 ， 现 在 性 能 稍微 强 一 点 的 
处 理 吉 都 具备 这 种 功能 。 








MISD (multiple instruction single data) ， 一 次 处 理 多 条 指令 ， 多 条 
指令 处 理 一 份 数 据 ， 这 种 结构 没有 实际 意义 。 
MIMD (multiple instruction multiple data) ， 一 次 处 理 多 条 指令 ， 多 








条 指令 能 处 理 多 条 数据 ， 这 种 方式 称 为 指令 并 行 ， 高 性 能 处 理 器 都 具备 
这 个 功能 。 
下 图 描述 了 指令 并 行 性 、 数 据 并 行 性 的 示例 : 





理 咒 的 各 种 并 行 性 。 





全 蝶 虑 
于 颖 运 





SISD、SIMD、MIMD 关 系 


4.5 指令 并 行 〈Instruction Level Parallelism ) 
4.5.1 指令 并 行 的 < 绿营 ”和 < 蓝 营 > 


程序 是 由 一 系列 指令 组 成 的 ， 如 果 要 节省 执行 的 时 间 ， 最 直接 的 方 
法 就 是 将 指令 并 行 起 来 执行 。 在 处 理 器 内 部 通常 有 很 多 的 执行 单元 ， 如 
加 法 单元 、 乘 法 单元 、 内 存 访问 单元 、 浮 点 运算 单元 等 ， 每 种 执行 单元 
负责 一 类 具体 的 指令 。 在 前 面 介 绍 的 乱 序 执行 内 核 中 ， 每 个 Cycle 最 多 
只 发 射 一 条 指令 ， 即 使 有 时 很 多 指令 并 行 执 行 ， 平 均 的 指令 执行 效率 也 
最 多 只 有 每 个 Cycle 一 条 指令 。 如 果 发 射 单元 一 次 能 发 射 多 条 指令 ， 那 
么 就 有 更 多 指令 能 并 行 处 理 了 ， 因 此 指令 并 行 也 称 为 multi-issue 〈 多 发 
射 ) 。 

哪些 指令 需要 并 行 处 理 ， 这 需要 做 判决 ， 根 据 判 决 的 地 方 不 同 ， 
multi-issue 又 分 成 了 两 个 阵营 : Superscalar 和 VLIW。 

世上 没有 无 缘 无 故 的 爱 ， 也 没有 无 缘 无 故 的 恨 ， 没 有 无 缘 无 故 的 
Superscalar， 也 没有 无 缘 无 故 的 WLIW。Superscalar 和 VLIW 也 是 随 着 历 
史 趋 势 慢 慢 发 展 起 来 的 。 

Superscalar 是 由 super 〈 超 ) 十 scalar (标量 ) 组 成 ， 标 量 处 理 器 时 代 
的 指令 都 是 串 行 执 行 的 ， 处 理 器 为 了 莱 容 原 有 的 程序 ， 但 同时 又 要 提 闹 
程序 执行 效率 ， 就 在 处 理 器 内 部 做 了 指令 的 并 行 化 处 理 。 这 就 是 超标 量 
处 理 器 的 基本 原型 。 




















处 理 器 
并 行 的 指令 处 理 
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捉 行 的 指令 输入 














Superscalar 的 指令 并 行 化 在 处 理 器 内 部 实现 








如 果 将 指令 的 并 行 化 显示 的 声明 在 指令 格式 中 ， 处 理 器 只 是 傻 呼 呼 
的 执行 ， 这 种 方式 称 为 VYLIW (Very Long Instruction Word) 。 指 令 的 并 
行 化 可 由 编译 絮 完 成 ， 也 可 以 由 程序 员 手 工 写 并 行 汇 编 代 码 实 现 。 


Pa - A FP 处 理 规 
并 行 指 令 输 人 并 行 的 指令 处 理 
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VLIW 的 指令 并 行 化 在 处 理 器 外 部 实现 


VLIW 的 典型 代表 是 DSP。TIDSP 所 使 用 的 汇编 代码 格式 如 下 : 


LDH .D1 *#AS++, 五 0 
1| LDH .D2 #*B6++, Bl 


指令 前 面 的 “p 表 示 这 条 指令 和 上 条 指令 在 同一 个 Cycle 执行 ， 如 果 
没有 “|”， 则 表示 这 条 指令 在 下 一 个 Cycle 执行 。 在 机 器 码 中 ， 每 条 指令 
占 32 bit，“l” 在 第 0 bit 表 示 ， 处 理 器 只 需 按 照 指令 规则 执行 即 可 。 

早期 的 汇编 语言 都 没有 单独 的 字段 描述 当前 指令 是 否 和 其 他 指令 并 
行 执 行 ， 处 理 器 在 发 展 时 ， 为 了 保证 指令 集 的 兼容 性 ， 都 采用 了 
Superscalar 结 构 ， 如 x86、MIPS、ARM 等 。 Superscalar 的 代价 是 处 理 器 
内 部 有 不 少 的 资源 用 于 将 串 行 的 指令 序列 转换 成 可 以 并 行 的 指令 序列 ， 
这 大 大 的 增加 了 处 理 器 的 功 耗 和 面积 。 而 后 来 产生 的 新 的 指令 集 的 处 理 
峰 ， 大 都 采用 了 VLIW 结 构 ， 如 Tilera 和 Tensilica 公 司 的 处 理 堪 。 

在 Multi-issue 结 构 中 ， 不 乱 序 也 能 实现 一 定 程 度 的 并 行 。 例 如 ， 处 
理 器 内 部 有 两 条 执行 路 径 ， 一 条 路 径 执行 浮 点 指令 ， 一 条 路 径 执行 整数 
指令 ， 由 于 浮 点 指令 和 整数 指令 分 别 使 用 不 同 的 寄存 器 ， 它 们 没有 相关 
性 ， 可 以 并 行 执 行 。 不 过 ， 乱 序 执行 的 结构 ， 更 能 提高 指令 的 并 行 性 ， 
当然 也 需要 更 多 的 硬件 资源 。 

下 面 我 们 分 别 介绍 Superscalar 的 典范 
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Intel P4 CPU 及 VLIW 的 典 





范 一 一 TI C6000 DSP。 
4.5.2 ”Superscalar 处 理 器 实例 一 一 Intel P4 CPU 
1.P4 CPU 结构 


奔 4 处 理 圳 是 mtel 的 经 典 之 作 ， 它 是 采用 乱 序 执行 内 核 的 超标 量 处 
理 器 。P4 采 用 的 微 架 构 称 为 NetBurst， 基 本 结构 如 下 : 


[Io memory bus 


执行 单元 
Integer and floating-point 
execution units 
Retirement 
unit 
乱 序 
控制 


Branch prediction 
unit 





奔 4 处 理 器 微 架 构 的 基本 结构 
奔 4 处 理 器 微 架 构 被 分 成 了 4 大 部 分 : 
(1) 存储 子 系统 (Memory subsystem) 。 
(2) 前 端 (Front end) 。 
(3) 乱 序 控制 (Out-of-order control) 。 
(4) 执行 单元 (Execution unit) 。 
存储 子 系 统 包 含 了 片 内 的 Cache，Cache 是 处 理 器 内 部 的 存储 单元 ， 
存储 指令 和 数据 。Cache 也 是 微 架 构 的 重要 组 成 部 分 ， 不 过 相对 比较 独 


立 ， 留 竺 下 章 细 襄 。 

指令 可 以 分 为 前 器 和 后 端 ， 前 端 准 备 指 
令 ， 后 端 执行 指令 。 前 端 包 括 取 指 、 译 码 、 分 文 预 训 等 单元 ， 后 端 包括 
执行 单元 和 乱 序 控制 

执行 单元 的 工作 就 是 傻 呼 呼 的 运算 ， 而 指令 的 乱 序 调度 交 给 了 乱 序 
控制 部 分 。 





2. 译 人 码 


在 X86 处 理 器 中 ， 译 码 单 元 的 工作 就 是 将 x86 指 令 翻译 成 类 似 RISC 
的 micro operations 〈 微 操作 ) ， 人 简称 uop。 

P4 是 超标 量 处 理 右 ， 一 次 能 处 理 多 条 指令 ， 目 然 也 要 一 次 对 多 条 指 
令 进 行 译 码 。 对 于 定 长 编码 的 指令 ， 每 条 指令 的 bit 数 是 固定 的 ， 多 增加 
几 套 译 码 电路 就 能 实现 多 条 指令 并 行 的 译 码 ， 如 下 图 所 示 : 














定 长 编码 指令 的 译 码 

















不 过 ，x86 指 令 是 变 长 编码 的 ， 指 令 长 度 从 1 一 15 ”bytes 不 等 ， 根 本 
就 不 知道 哪 几 个 bytes 是 第 一 条 指令 的 ， 哪 几 个 bytes 是 第 二 条 指令 的 ， 
也 就 无 从 解 起 。 





指令。 | 指 人 3 
i 我 从 哪里 开始 解 ? 


变 长 编码 指令 的 译 码 难题 
在 AMD 的 处 理 嚣 中， 通常 采用 预 译 码 (Predecode) 的 方式 来 解决 

















这 个 难题 ， 指 令 从 内 存 读 入 到 Cache 中 时 ， 就 开始 预 解码 ， 得 出 预 译 码 
标识 ， 预 译 码 标识 包括 指令 的 起 始 位 置 、 需 要 译 出 的 uop 数 目 、 操 作 码 
等 信息 。 预 译 码 标识 连同 指令 一 起 存储 在 指令 Cache 中 ， 在 正式 译 码 时 
工作 难度 就 减轻 了 。 

Intel 的 处 理 器 则 采用 多 级 译 码 流水 线 的 方式 来 实现 译 码 。 第 一 级 先 
检测 出 指令 的 起 始 和 结束 位 置 ， 第 二 级 将 指令 解码 为 uop。 

一 条 x86 CISC 指 令 通 常 对 应 多 条 uop。 当 一 条 CISC 指 令 生 成 的 uop 数 
目 多 于 4 条 时 ， 束 将 这 些 CISC 指 令 对 应 的 uop 存 储 在 micro- 
ROM (uROM) 中 ， 解 码 时 使 用 查 表 的 方式 从 micro-ROM 中 得 到 ， 这 样 
就 简化 了 复杂 指令 的 译 码 过 程 。 





3. Trace cache 


在 P4 处 理 器 中 ， 解 码 后 的 uop 被 存储 在 Trace ”Cache 中 。 这 个 Trace 
Cache 和 一 般 的 Cache 有 点 不 一 样 ， 在 一 般 的 Cache 中 ， 指 令 的 存储 顺序 
和 内 存 中 的 指令 顺序 是 一 样 的 ， 而 Trace Cache 中 的 指令 顺序 是 指令 的 执 
行 顺序 ， 而 不 是 指令 的 地 址 顺序 。 

下 面 这 个 程序 中 ， 包 含有 跳 转 指令 : 
load 


jmp Ti; 跳 转 到 Tl 处 


store 























指令 在 普通 Cache 上 存放 的 位 置 根据 程序 地 址 决定 ， 指 令 这 样 存 
储 : 





共通 Cache 


Ed 
Cache line 0 load jmp store : 


Cache line | 





普通 Cache 的 存储 方式 


而 在 Trace Cache 中 ， 指 令 的 存储 格式 如 下 : 


Trace Cache 
Cache line 0 load jmp Xor 


Trace Cache 的 存储 结构 


在 P4 中 ， 一 个 Trace Cache line 包 含 6 条 uop。 

Trace Cache 与 传统 Cache 有 两 点 不 同 : 

(1) Trace Cache 存 储 的 是 译 码 之 后 的 微 操 作 ， 而 不 是 x86 指 令 
样 执行 循环 代码 时 ， 就 省 了 指令 的 译 码 过 程 。 

(2) Trace Cache 存储 的 微 操 作 是 按照 执行 顺序 存储 的 ， 而 不 是 指 
令 顺 序 。 在 超标 量 处 理 器 中 一 次 取 多 条 指令 时 ， 减 少 了 Cache ”line 的 访 





Fetch Queue Decode : Queue Cache Fill : uop Queue 





L2cache : Trace Cache 


前 端 流 水 线 (Trace Cache miss 时 ) 


一 开始 ， 前 端 从 L2 Cache 中 读 指令 ， 一 次 读 64bit， 取 好 的 指令 放 在 
一 个 队列 (Queue) 中 ， 也 即 Buffer 中 ， 前 面 我 们 有 谈 到 Buffer 的 作用 ， 
它 隅 离 了 前 后 两 个 步骤 ， 并 对 速度 进行 了 平滑 。Decode 单 元 从 队列 中 取 
指令 进行 译 码 ， 译 码 后 的 指令 也 放 在 一 个 队列 中 ， 然 后 再 按照 uop 的 执 








行 顺序 放 在 Trace ”Cache 中 ， 然 后 再 从 Trace ”Cache 中 取出 uop 放 在 uop 
Queue 中 ，uop Queue 为 连接 前 端 和 后 端的 桥梁 。 

当 uop 已 经 在 Trace Cache 中 时 ， 束 不 需要 再 从 L2 中 取 指 令 了 ， 直 接 
从 Trace Cache 中 取 uop 即 可 。 所 需 的 指令 在 Trace Cache 中 时 ， 称 为 Trace 
Cache hit( 命 中) ， 所 需 的 指令 不 在 Trace Cache 中 时 ， 称 为 Trace Cache 
miss (未 命中 ) 。Trace Cache hit 时 的 前 端 流 水 线 就 简化 为 : 


Fetch : Uop Queue 





: Trace cache 


前 端 流 水 线 (Trace Cache hit 时 ) 
除了 这 些 基 本 的 模块 之 外 ， 处 理 器 在 根据 地 址 取 指 令 时 ， 需 要 进行 
虚 地 址 、 实 地 址 转换 ， 使 用 到 TLB (Translation Lookaside Buffer) ; P4 
处 理 嚣 中， 有 两 个 分 支 预 测 单 元 ， 一 个 用 于 预测 指令 的 执行 路 径 ， 男 一 
个 用 于 预测 nop 的 执行 路 径 。 


5， 后 端 流水 线 





uop Qucue Rename |! Oueue Schedule Register Execute LI Cache Regtster Retlire 
| ead Write 


是 | 





后 端 流 水 线 


后 端 和 前 端的 桥梁 就 是 uop Queue， 当 uop 进 入 后 端 时 ， 首 先 要 进行 
资源 的 分 配 (Allocate〉， 处 理 器 内 部 拥有 大 量 的 Buffer 用 于 调度 ， 每 条 
进来 的 uop 要 占 一 个 位 置 ， 如 它 需 要 在 ROB (Re-order Buffer) 中 有 一 个 
位 置 ， 人 逻辑 寄存 器 需要 使 用 到 物理 寄存 器 ， 内 存 操 作 需 要 使 用 到 
Load/Store Buffer 等 ， 如 果 资 源 不 可 用 ，Allocate 束 处 于 等 待 。 然 后 uop 会 
被 寄存 器 重合 名 ， 在 P4 处 理 器 中 ，8 个 通用 寄存 器 能 使 用 128 个 物理 寄存 
器 ， 逻 辑 寄存 器 和 物理 寄存 器 之 间 的 映射 关系 被 保存 在 RAT (Register 
Alias Table) 中 。 

虽 令 的 调度 《Schedule) 是 乱 序 执行 内 核 的 核心 ， 调 度 器 根据 uop 操 
作 数 的 准备 情况 和 执行 单元 的 准备 情况 决定 uop 什 么 时 候 开始 执行 。 内 
存 的 访问 和 ALU 指 令 的 运算 分 别 放 在 不 同 的 队列 中 。 

调度 器 连接 了 4 个 Dispatch ”Ports (分 派 口 ) ， 不 同类 型 的 指令 由 不 
同 的 Dispatch Port 分 派 ， 如 下 图 所 示 : 
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P4 处 理 器 的 执行 单元 
Exec Port 0 和 Exec Port 1 用 于 分 派 ALU uop，Load Port 用 于 分 派 Load 
uop， Store Port 用 于 分 派 Store uopo ALU (double speed) 表示 Exec Port 
每 半 个 Cycle 就 能 分 派 1 个 简单 的 ALU uop， 于 是 在 最 理想 的 情况 下 ， 
Exec Port 0 和 Exec Port 1 每 个 Cycle 分 别 发 射 两 条 uop，Load Port 和 Store 
Port 每 个 Cycle 分 别 发 射 1 条 uop， 上 所 以 1 个 Cycle 最 多 能 发 射 6 条 uop。 不 过 
这 只 是 理论 上 的 情况 ， 实 际 情 况 由 于 指令 的 依赖 性 ， 远 远 达 不 到 6 条 uop 





并 行 。 实 时 上 ， 处 理 器 汽水 线 每 个 阶段 能 并 行 处 理 的 最 大 指令 数 都 不 一 
样 ， 如 Trace Cache 一 个 Cycle 输 出 3 条 uop， 因 此 Intel 处 理 嚣 几乎 在 每 个 阶 
段 都 有 Buffer 来 阳 离 它 们 之 间 的 速率 偏差 。 

后 面 的 Register Read、Execute、L1 Cache (MEM) 、Register Write 
和 经 典 的 MIPS 5 级 流水 线 类 似 。 

乱 序 执行 内 核 的 最 后 一 步 ， 就 是 Retire〈 退 出 ) ， 它 负责 更 新 ISA 寄 
存 器 状态 ， 指 令 按照 顺序 退出 乱 序 执行 内 核 。Allocate、Register 
Rename、Schedule、Retire 组 成 了 乱 序 控制 。 

P4 处 理 器 实际 的 流水 线 达 到 了 20 级 ， 比 上 面 的 介绍 要 更 为 复 


党 


4.5.3 ”VLIW 人 处理 右 实 例 一 一 TI C6000 DSP 
1. DSP 的 应 用 


Intel 在 20 世 纪 90 年 代 “Intel ”inside” 的 造势 ， 将 CPU 推 向 了 前 台 ， 而 
DSP 则 一 直上 默默 地 在 后 台 奉 献 ， 不 为 人 们 熟知 。 如 果 说 CPU 是 电脑 的 大 
脑 ， 那 么 DSP 就 是 手机 的 心脏 。 

手机 是 我 们 每 人 必 备 的 贴身 伴侣 ，2G 通 信 时 代 成 就 了 3 家 公司 : 爱 
立信 做 局 端 设备 ， 话 基 亚 做 手机 ， 德 州 仪 器 做 DSP。 手 机 中 的 DSP， 承 
包 了 一 部 分 无 线 信 号 的 处 理 、 语 音信 号 的 处 理 、 图 像 信号 的 处 理 、 视 频 
言 号 的 处 理 。 德 州 仪器 (TI) 在 自己 的 DSP 忆 片 中 ， 引 入 了 ARM 内 核 ， 
这 也 一 定 程度 上 带动 了 ARM 的 繁荣 。 

除了 手机 之 外 ，DSP 也 会 用 在 多 媒体 终端 、 摄 像 头 、 基 站 等 领域 。 








2. VLIW 得 名 


VLIW 机 制 由 Josh Fisher 发 明 ， 广 泛 使 用 在 RISC 体 系 的 处 理 器 上 ， 
DSP 是 VLIW 体 系 的 典型 代表 。TI 的 VLIW 对 原 有 的 VLIW 进 行 了 些许 改 
进 ， 我 们 以 TI 的 VLIW 进 行 介绍 。 在 TI C6000 系 列 DSP 中 ， 处 理 器 有 8 个 
执行 单元 ， 理 论 上 每 个 周期 处 理 器 可 以 执行 8 条 指令 。 这 8 条 指令 被 看 成 





是 一 个 包 ， 取 指 、 译 码 、 执 行 早 元 每 次 对 一 个 指令 包 进行 操作 。VLIW 





将 多 条 并 行 执行 的 指令 看 成 一 条 长 指令 ，VLIW 处 理 器 的 工作 过 程 可 以 
看 成 是 每 条 长 指令 的 取 指 、 译 码 、 执 行 过 程 ， 甚 长 指令 字 (Very Long 
Instruction Word) 因此 而 得 名 。 

C6000 DSP VLIW 示 例 


! 个 指令 包 





一 个 指令 包 最 多 包含 8 条 指 信 


仿 


3. TIDSP 内 部 结构 


前 面 已 经 介绍 过 DSP 的 流水 线 结构 ，TIDSP 由 取 指 、 译 码 、 执 行 3 音 
分 组 成 ，VLIW 是 个 典型 的 顺序 〈In-order) 执行 结构 ， 指 令 的 执行 顺 
序 、 哪 些 指令 能 并 行 执行 已 经 在 指令 格式 中 描述 清楚 了 。 

DSP 的 特别 之 处 在 于 它 的 执行 单元 ， 下 图 是 C6000 DSP 执 行 单 元 的 
结构 图 。 
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C6000 DSP 中 的 寄存 器 和 功能 单元 
.S1、.M1、.L1、.D1、.S2、.M2、.L2、.D2 是 DSP 的 功能 单元 (或 
执行 单元 ) ， 是 进行 运算 的 地 方 。 每 个 单元 能 完成 某 些 类 型 的 运算 ， 如 
下 图 所 示 : 





DualQuad Arith DataPack/lUn Compares rith 
SADD2 PACK2 CMPEQ2 PACK 
SADDUS2 PACKH2 CMPEQ4 二 
SADD4 PACKLH2 CMPGT2 PACKLH2 
ea Ee 
UNPKLU4 Ce PACKL4 
Shifts &Werge SWAP2 UNPKHU4 
SHR2 SPACK2 BPOS UNPKLU4 
SWAP2/4 


gpos 2 
SHRU2 SPACKU4 
SHLMB ADDKPC ee 
SHRMB rT He 
ye ne i NE 5 一 a 吕 en: 
i 





每 个 功能 单元 支持 的 指令 
在 C6000 DSP 中 ， 寄 存 器 和 功能 单元 被 分 成 了 两 组 ， 左 边 一 组 ， 碳 
边 一 组 ， 为 什么 要 这 样 分 呢 ? 
如 果 寄 存 器 堆 和 8 个 功能 单元 相连 ， 则 需要 做 成 8 端口 的 寄存 器 堆 ， 
而 拆 成 两 部 分 后 ， 只 需要 做 成 4 端口 的 ， 功 能 单元 访问 另 一 边 寄存 器 堆 
时 ， 使 用 一 条 单独 的 链 路 进行 通信 。 这 种 做 法 能 降低 芯片 面积 和 功 耗 。 
在 Intel 处 理 器 中 ， 整 数 单元 和 浮 点 单元 也 是 分 开设 计 的 。 


4. TIDSP 的 指令 并 行 性 


DSP 最 重要 的 任务 是 执行 数字 信和 号 处 理 算法 ， 数 字 信 和 号 处 理 中 的 典 
型 算法 是 FIR 滤 波 : 


short clcount}, x[count]; 





for (i=m0; < counts; i++) 
{ 
sum += Ci *» X[IL]， 


} 

















DSP 的 执行 单元 也 是 为 了 最 快 实现 这 个 循环 而 设计 的 。 经 过 编译 器 
优化 后 ，loop kernel (全 速 并 行 的 阶段 ， 程 序 口 下 : 








弟 市 * 
; PIPED LOOP KERNEL 
LOOP: ADD .了 2 B8,B6,B6 


"LL1 A6,A7,A7 

.M2X B4,A4,B8 
.M1iX BS5,AS5,AG6 
“SI LOOP 

.S2 B0, -1 B0 
.D2T2 #7++ ,BS5 :B4 
.D1T1 二 及 了 十 十 ， 丰 5 :及 4 








从 中 我 们 可 以 看 到 : 8 个 功能 单元 全 速 并 行 执 行 ， 效 率 达 到 最 优 。 
怎样 才能 达到 这 么 高 的 并 行 度 呢 ? 
编译 器 及 用 了 优化 循环 的 两 种 做 法 : 循环 展开 和 软件 流水 。 


译 吉 在 处 理 这 个 循环 时 ， 将 这 个 循环 展开 了 4 次 : 





for (i=0; i < count; i+=4) | 


sum += Clial * x{[i]; 
sum += CiLi+lj * X[ 计 +1]; 


sum += C[ 了 +2] * x[i+2]; 


sum += C[i+3] * x[i+3]; 





DSP 中 有 很 多 的 功能 单元 ， 循 环 展开 后 ， 就 可 以 充分 利用 这 些 功能 
单元 一 次 处 理 更 多 的 数据 。count 如 果 不 是 4 的 整数 倍 ， 可 以 拆 成 两 部 
分 ， 一 部 分 是 4 的 整数 倍 ; 另 一 部 分 是 余下 的 内 容 。 

软件 流水 是 编译 占 优 化 循环 代码 的 一 种 指令 调度 策略 ， 用 于 在 循环 
的 多 次 迭代 中 提高 指令 的 并 行 性 。 硬 件 流水 前 面 已 经 介绍 过 ， 软 件 流水 
顾名思义 ， 就 是 对 软件 〈 这 里 特 指 循环 ) 进行 类 似 的 流水 线 调 度 。 软 件 
流水 也 称 为 循环 级 并 行 。 

每 次 循环 称 为 一 次 欠 代 (〈Iteration ) ， 每 次 迭代 执行 3 条 指令 : K1， 
K2，K3〔 如 取 数 、 计 算 、 存 数 ) ， 传 统 的 程序 执行 过 程 如 下 : 





时 间 











9 加 站 
站 芭 号 i 
| 一 一 一 | 一 一 一 一 
: : 迁 代 3 | 


迁 代 | ; 迭代 2 ; 


传统 循环 的 执行 过 程 
而 采用 软件 流水 技术 ， 程 序 的 执行 过 程 如 下 : 





:M4 
循 | 迭代 1 [El 
迭代 2 [x | 
迁 代 3 
选 代 4 
迭代 5 
选 代 6 a 
迁 代 7 区 [| 
IE 
进 流水 全 并 行 出 流水 





软件 流水 示意 
进 流 水 的 阶段 称 为 Loop Prolog， 全 速 并 行 的 阶段 称 为 Loop Kernel， 
出 流水 线 的 阶段 称 为 Loop Epilog。 
下 面 我 们 分 析 FIR 滤 波 器 的 8 条 指令 并 行 是 怎么 实现 的 。 
下 面 的 代码 中 ， 篆 头 后 面 为 每 条 指令 的 描述 : 





.L2 B8,86,86 ”一 一 A 部 分 DOTP2 的 结果 和 总 结果 的 累加 
= A6,A7,A7 ”一 一 2>B 部 分 DOTP2 的 结果 和 总 结果 的 累加 
.M2X B4,A4,B8 一 一 一 2 个 样 点 的 乘 累加 


.MIX B5,RA5,A6 一 一 2 个 样 点 的 乘 累加 

.S1 LOOP 一 一 一 循环 代码 中 的 跳 转 

.S2 B0, -1,B0 ”一 一 循环 计数 器 

.D2T2 ” *B7T++,B5:B4 一 一 读 入 cf[i] 数 组 中 的 4 个 样 点 
WA3++ ,RARA4 一 一 该 入 xf[i] 数 组 中 的 4 个 样 点 





下 图 更 清晰 的 描述 了 各 条 指令 的 功能 及 它们 是 怎么 组 合 来 完成 一 个 
FIR 运 算 的 : 


LDDW 





LDDW 









DOTP2 LOG- DOTP2 -GO- 
1 f 
ko <[0]+e[lj*xt c[2)** 21+eBh “[3] 


ADD 


跳 转 
| Sum B 六 


FIR 滤 波 器 汇编 实例 

TI DSP 汇 编 指令 的 目的 寄存 器 是 最 后 一 个 寄存 器 ，LDDW 指 令 最 后 
一 个 寄存 器 是 B5:B4， 表 示 一 次 从 Cache 中 取 64 ”bit 的 数据 ， 结 果 存 储 在 
两 个 寄存 器 中 ，64 bit 的 数据 相当 于 4 个 样 点 (每 个 样 点 16 bit) 。 

DOTP2 指 令 完 成 乘 累 加 的 功能 ， 它 可 以 将 32 位 的 寄存 器 看 成 两 个 16 
位 的 寄存 器 ， 分 别 进行 乘法 ， 然 后 再 累加 ， 结 果 放 在 一 个 32 位 寄存 器 
中 。 

ADD 指 令 将 以 前 的 结果 和 DOTP2 输 出 的 结果 进行 累加 ， 等 循环 执 
行 完 后 ， 将 Sum_A 和 Sum_B 相 加 ， 就 是 最 终 的 结果 。 

SUB 指 令 完成 循环 计数 器 的 递减 操作 ，B 指 令 完 成 循环 的 跳 转 功 


SUB 循环 计 数 器 减 | | 








ADD 





Sum A 























这 样 ，8 条 指令 就 正 闻 的 运转 起 来 ， 并 行 实 现 一 个 FIR 的 运算 。 

VLIW 成 功 的 关键 就 在 于 编译 器 是 否 能 将 高 级 语言 翻译 成 并 行 性 足 
够 好 的 指令 厅 列 。 循 环 代码 通常 占据 了 绝 大 部 分 的 程序 执行 时 间 ， 对 循 
环 代码 的 优化 成 为 表现 VLIW 性 能 的 最 关键 因素 。 








4.5.4 Superscalar 和 VLIW 总 结 





VLIW 和 Superscalar 两 种 处 理 占 结构 都 是 为 了 提高 指令 的 并 行 性 而 


设计 的 。 所 不 同 的 是 : 并 行 的 指定 时 间 不 一 样 ，VLIW 在 编译 阶段 指定 
并 行 ， 而 Superscalar 在 执行 阶段 指定 并 行 。x86 处 理 器 为 了 保证 程序 的 兼 
容 性 ， 不 得 不 采用 Superscalar， 而 后 来 没有 历史 包 裕 的 RISC 处 理 占 则 可 
以 直接 采用 VLIW 结 构 。 

由 于 VLIW 内 核 简单 ， 因 此 新 出 的 处 理 嚣 ， 都 使 用 了 VLIW 内 核 ， 
如 Tensilica 和 Tilera。 Superscalar 通 常会 配合 乱 序 执行 来 提高 并 行 性 ， 不 
过 由 于 乱 序 执行 资源 消耗 太 大 ， 也 有 的 处 理 器 使 用 顺序 〈In-order) 的 
Superscalar 结 构 ， 如 Intel 在 低 功 耗 领 域 和 ARM 苋 争 的 Atom 人 处理 器 。 

单 从 并 行 性 来 说 ，VLIW 更 胜 一 筹 ， 因 为 它 使 用 了 更 上 层 的 信息 ， 
可 以 从 源头 实现 并 行 ， 它 更 擅长 于 数据 的 密集 运算 。 不 过 如 果 发 生 
Cache miss、 执 行路 径 跳 转 时 ，VLIW 就 无 能 为 力 了 ， 而 采用 乱 序 十 
Superscalar 的 处 理 器 则 能 将 后 面 的 指令 提前 来 执行 ， 因 此 乱 序 十 
Superscalar 更 擅长 于 复杂 的 控制 类 应 用 程序 。 

问 : “如 条 路 上 有 一 张 100 元 的 ， 有 一 张 50 元 的 ， 你 近 哪 个 ? ” 

答 : “当然 是 两 张 都 近 了 。” 

Intel 和 HP 也 是 这 么 想 的 。 

2001 年 ，Intel 和 HP 联合 推出 了 64 位 的 Itanium 处 理 器 ， 定 位 于 服务 
器 市 场 。Itanium 结 合 VLIW 和 Superscalar 的 优势 ， 提 出 了 新 的 架构 
EPIC (Explicitly Parallel  _ Instruction Computing) 。 但 是 遗憾 的 是 ， 
Itanium 由 于 不 能 和 原 有 的 x86 代 人 码 兼 容 ， 因 此 市 场 是 叫好 不 叫座 ， 很 多 
软件 公司 (如 微软 、Oracle 等 ) 纷纷 表示 不 再 支持 Itanium 。 








4.6 ”数据 并 行 (Data Level Parallelism ) 


4.6.1 何 为 SIMD、MMX、SSE 








多 媒体 应 用 是 电脑 上 最 基本 的 应 用 ， 我 们 可 能 每 天 都 要 听 音 乐 、 看 
视频 、 玩 游戏 。 现 在 的 手机 ， 如 果 不 能 看 视频 ， 除 了 跳楼 价 ， 几 乎 束 不 
会 有 有 全 天 

语 首 、 图 像 信号 被 采样 后 ， 在 计算 机 中 存储 为 如 下 的 形式 : 











100 101 99 100 
101 101 98 100 
98 102 99 101 
100 100 97 102 





多 媒体 信号 的 存储 格式 
语音 信号 经 过 8K Hz 采样 后 ，1 秒 钟 包含 8000 个 样 点 ， 图 像 信 号 由 于 
在 水 平和 垂直 方 同 上 分 别 采 样 ， 样 点 (专业 术语 称 为 像素 ) 更 多 。 

多 媒体 程序 通常 有 一 个 特点 : 同一 操作 会 重复 处 理 多 个 数据 ， 一 条 
语句 处 理 多 个 数据 的 SIMD (Single Instruction Multiple Data) 指令 于 是 
高 性 能 处 理 器 基本 上 都 包含 SIMD 指 令 。Intel 从 1996 年 开始 增加 
MMX (MultiMedia eXtensions) 指令 集 (也 即 SIMD 指 令 ) ， 后 来 逐步 
增加 了 SSE (Streaming SIMD Extensions) 、SSE2、SSE3、SSSE3、 
SSE4.1、SSE4.2、AX (Advanced Vector Extensions) 指令 集 。AMD 增 
加 了 3DNow! 、SSE5 指 令 集 。 在 x86 处 理 器 上 ， 可 以 通过 CPUID 指 令 来 

查看 自己 的 处 理 器 支持 的 SIMD 指 令 集 。 


MMX 指令 和 FPU (〈 浮 点 处 理 单元 ) 指令 共用 64 bit 的 寄存 器 ， 一 次 
可 处 理 64 bit 的 数据 。SSE 系 列 指令 集 使 用 单独 的 128 bit 琳 存 器 (XMM 
寄存 器 ) ， 一 次 处 理 128 bit 的 数据 。128 bit 寄 存 器 的 数据 类 型 可 以 是 两 
个 64 bit 数 据 ， 也 可 以 是 4 个 32 bit 的 数据 ， 还 可 以 是 8 个 16 bit 的 数据 ， 或 
者 是 16 个 8bit 的 数据 ， 不 同 的 数据 类 型 对 应 着 不 同 的 指令 。AVX 指 令 文 
持 256 bit 数 据 的 处 理 。 





128 bit 


em om em om wm em wm em 
CECE 


XMM 寄 存 器 的 数据 类 型 
由 于 语音 数据 通常 每 个 样 点 16bit， 因 此 128 bit 的 SSE 指 令 可 以 一 次 
操作 8 个 样 点 。 图 像 数据 一 般 每 个 像素 8 bit， 因 此 128 bit 的 SSE 指 令 可 以 
一 次 操作 16 个 像素 。 
4.6.2 ” 几 种 不 同形 式 的 SSE 指 令 


1. 和 圣 直 计算 形式 





最 常见 的 SSE 指 令 是 垂直 计算 形式 ， 如 下 图 所 示 : 





on JE 


垂直 计算 形式 的 SSE 指 令 
左边 是 普通 指令 的 计算 形式 ， 右 面 是 垂直 计算 形式 的 SSE 指 令 。 
在 垂直 计算 形式 的 SSE 指 令 中 ，X 和 Y 寄 存 器 被 看 成 是 一 个 向 量 ， 它 
包含 多 个 标量 数据 ， 每 个 标量 数据 分 别 运算 ， 这 也 是 SIMD 指 令 最 利用 
的 计算 形式 。 


2. 水 平 计算 形式 


除了 常见 的 垂直 计算 形式 之 外 ，SSE 指 令 集 还 支持 很 多 个 性 化 的 指 
令 形式 ， 以 满足 不 同 的 应 用 需要 。 例 如 ， 下 面 的 水 平 计算 模式 : 




















水 平 计算 形式 
在 水 平 计算 形式 中 ， 两 个 操作 数 均 来 自 于 同一 个 源 ， 而 不 像 垂直 计 
算 形式 ， 两 个 操作 数 来 自 于 不 同 的 源 。 


3. 标量 计算 形式 


STC 3 

op 
dest Y3 
dest bo 





标量 计算 形式 


SSE 指 令 还 支持 标量 的 运算 方式 ， 如 上 图 所 示 : 只 有 x0 和 y0 进 行 操 
作 ， 其 他 的 元 素 保持 不 变 。 

DSP 专 业 做 信号 处 理 ， 自 然 也 有 SIMD， 不 过 DSP 并 没有 单独 的 
SIMD 寄 存 器 ， 而 是 使 用 通用 寄存 器 ， 前 面 VLIW 章 节 中 介绍 的 DOTP2 
就 是 一 个 SIMD 指 令 。 

值得 注意 的 是 : 两 个 8 bit 数 据 相 加 会 有 一 个 进位 ， 有 些 指令 带 饱和 
操作 (如 无 符号 8 bit 数 据 相 加 超过 255 的 就 用 255 代 替 ) ， 有 些 指令 要 求 
用 户 自己 保证 不 溢出 。 因 此 使 用 SIMD 指 令 需 要 注意 指令 的 应 用 场景 。 

SIMD 是 如 此 的 简洁 高 效 ， 以 至 于 不 仅仅 是 高 性 能 的 x86 和 DSP， 就 
如 以 低 功 耗 落 称 的 ARM 处 理 器 等 ， 也 增加 了 对 SIMD 的 支持 。PowerPC 








的 AltiVec 实 际 上 也 是 SIMD 指 令 集 。 


4.7 线程 并 行 (Thread Level Parallelism ) 


4.7.1 多 线程 一 一 时 分 复 用 


很 多 程序 要 能 同时 完成 很 多 任务 《至少 是 看 起 来 同时 完成 ) ， 如 : 
网 络 播放 器 要 能 下 载 节 目 ， 要 能 播放 节目 ， 要 能 实时 的 让 用 户 用 鼠标 控 
制 和 暂停、 播放。 为 了 让 程序 能 同时 做 很 多 事情 ， 现 代 程 序 设计 都 将 程序 
分 成 了 多 个 线程 〈Thread) ， 每 个 线程 完成 各 目的 功能 ， 组 合 起 来 实现 
一 个 应 用 。 网 络 播放 器 就 可 以 分 为 3 个 线程 : 一 个 下 载 线程 ， 一 个 解码 
播放 线程 ， 一 个 用 户 界 面 线程 。 

操作 系统 采用 时 间 乒 轮转 的 方式 ， 阳 一 定时 间 束 切换 到 新 的 线程 执 
行 ， 这 样 就 不 会 让 用 户 有 长 久 的 等 待 。 由 于 处 理 器 执行 的 速度 够 快 ， 并 
且 线程 间 的 切换 时 间 很 得， 因此 人 们 在 操作 计算 机 时 ， 第 种 感觉 不 到 线 
程 的 切换 和 计算 机 的 等 待 。 











Time 








分 时 调度 线程 
当 从 线程 A 切换 到 线程 B 时 ， 线 程 A 对 应 的 处 理 器 状态 被 保存 (ISA 
寄存 器 等 ) ， 然 后 加 载 线程 B 的 处 理 器 状态 ， 执 行 线程 B。 这 个 过 程 称 
为 上 下 文 切换 (context switching) 。 


由 于 上 下 文 切换 是 使 用 多 线程 时 引入 的 额外 开销 ， 会 浪费 一 定 的 
CPU 时 间 ， 因 此 线程 划分 要 格外 注意 。 不 过 ， 在 很 多 场合 下 ， 多 线程 却 
能 提高 执行 效率 。 





多 线程 示例 





时 间 轴 


多 线程 示例 
以 上 面 这 个 图 为 例 ， 程 序 有 两 大 块 ， 块 1 和 块 2， 使 用 单线 程 编 程 
时 ， 程 序 顺 序 执行 ， 遇 到 数据 没有 准备 好 时 ， 只 能 等 待 。 如 果 将 程序 块 
1 放 在 线程 1 中 ， 将 程序 块 2 放 到 线程 2 中 ， 线 程 1 发 生 数据 等 符 而 暂停 
时 ， 处 理 器 可 以 转移 到 线程 2 处 执行 ， 提 高 了 整体 的 执行 效率 。 


4.7.2 ”硬件 多 线程 一 一 让 我 来 帮 你 一 把 


前 面 说 的 上 下 文 切换 是 由 软件 〈0S) 来 实现 的 ， 实 际 上 处 理 器 能 
更 快 地 完成 这 个 工作 。 在 处 理 器 中 多 开辟 几 份 线程 状态 ， 当 线程 友 生 切 
换 时 ， 处 理 器 切换 到 对 应 的 线程 状态 执行 ， 在 瞬间 即 可 完成 ， 这 种 方式 
叫做 硬件 多 线程 〈Hardware Multithreading) 。 

硬件 多 线程 又 分 成 两 类 : 粗 粒 度 〈Coarse-grained) 和 细 粒 度 
(Fine-grained ) 的 硬件 多 线程 。 


1. 粗 粒 度 


当 处 理 右 发 现 一 个 线程 被 长 时 间 中 断 时 ， 如 Cache miss， 这 时 处 理 
器 就 切换 到 其 他 线程 去 执行 。 
下 面 是 一 个 粗 粒 度 人 硬件 多 线程 的 调度 示例 : 











时 间 处 理 器 工作 








Cycle i 发 射线 程 A 的 指令 j 

Cycle i+] 发 射线 程 A 的 指令 j+1， 发 现 cache miss 了 
Cycle i+2 线程 调度 ， 从 A 切换 到 B 

Cycleih3 发 射线 程 B 的 指令 k 

Cycle i+4 发 射线 程 B 的 指令 k+1 


2. 细 粒 度 
细 粒 度 的 硬件 多 线程 是 处 理 器 每 个 cycle 轮 流 发 射 (issue) 不 同 线程 
的 指令 。 


下 面 是 一 个 细 粒 上 度 硬 件 多 线程 的 调度 示例 : 





时 间 处 理 器 工作 

Cycle ij 发 射线 程 A 的 指令 j 
Cycle 计 ] 发 射线 程 B 的 指令 k 
Cycle 计 2 发 射线 程 A 的 指令 j+1 


Cycle i+3 发 射线 程 B 的 指令 k+l 


细 粒 度 的 硬件 多 线程 的 优势 在 于 : 多 线程 之 间 的 指令 是 不 相关 的 ， 
可 以 乱 序 并 行 执 行 ， 寄 存 器 重 命名 不 仅 处 理 了 线程 内 指令 的 相关 ， 也 处 
理 了 线程 间 指 令 的 相关 。 


3. 同时 多 线程 





不 管 是 粗 粒 度 还 是 细 粒 度 的 硬件 多 线程 ， 多 个 线程 都 是 分 时 发 射 
的 。 在 Superscalar 处 理 器 中 ， 处 理 器 能 一 次 发 射 多 条 指令 ， 如 果 这 多 条 
指令 来 自 于 不 同 的 线程 ， 即 多 个 线程 的 指令 同时 被 发 射 ， 那 么 这 种 工作 
方式 就 叫做 同时 多 线程 (SMT，Simultaneous Multi Threading) 。 

下 面 是 一 个 同时 多 线程 的 调度 示例 : 








时 间 处 理 器 工作 

Cyclec i 发 射线 程 A 的 指令 j)、j+1， 线 程 B 的 指令 k、k+1 

Cycle 计 1 发 射线 程 A 的 指令 j+2， 线 程 B 的 指令 k+2， 线 程 C 的 指令 m 
Cycle i+2 发 射线 程 A 的 指令 j+3， 线 程 C 的 指令 m+1、m+2 


Intel 的 SMT 技 术 ， 称 之 为 超 线程 (Hyper Thread) 。 


4.7.3 多核 一 一 从 “ 心 ” 到 “ 营 2 的 跳 变 


刘 、 关 、 张 三 兄弟 联手 ， 也 只 是 稍微 强 过 吕布 一 点 点 ， 而 即使 是 强 
如 吕布 ， 最 终 还 是 敌 不 过 曹操 的 千 军 万 马 ， 可 见 一 个 人 的 力量 总 是 有 限 
的 ， 人 多 还 是 力量 大 。 处 理 器 也 是 一 样 ， 单 个 核 的 指令 并 行 和 数据 并 行 
已 经 很 难 再 上 一 个 台阶 了 ， 而 提高 频率 又 会 导致 处 理 器 的 功 耗 非 线性 的 
增加 ， 剩 下 的 唯一 一 条 途径 ， 束 是 增加 核 的 数目 了 。 核 越 多 ， 了 就 能 有 更 
多 的 线程 并 行 执行 ， 也 能 提高 程序 的 效率 。 

这 几 年 来 ， 各 大 处 理 器 公司 的 指令 并 行 、 数 据 并 行 、 频 率 提 高 等 进 
展 已 经 放 组 了， 取而代之 的 是 核 数 的 大 幅 提 升 ， 家 用 PC4 核 处 理 器 已 经 
很 普遍 了 ，iPad2 也 使 用 了 两 个 ARMCortex-A9 内 核 ， 服 务 器 CPU 的 核 数 
增长 更 是 迅猛 ， 己 推出 了 100 个 核 的 处 理 器 心 片 。 在 IDF 2005 (Intel 
Developer Forum 2005) 上 ，Intel 首 遍 执 行 官 Craig Barrett 束 取消 4GHz 心 
片 计划 一 事 ， 半 开玩笑 当众 单 膝下 跪 致歉。 
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Craig Barrett 半 开玩笑 当众 单 膝 下 跪 致歉 





多 核 处 理 器 ， 顾 名 思 义 就 是 核 多 了 ， 如 下 图 所 示 
多 个 核 会 共用 处 理 句 的 外 设 与 接口 ， 如 内 存 控制 占 、PCI-E 接 口 


等 ， 通 常 也 会 共享 一 段 Cache。 





多 核 处 理 器 结构 
人 一 多 时 ， 就 会 涉及 管理 、 沟 通 问 题 ， 人 越 多 ， 管 理 、 沟 通 效率 吏 
越 低 效 。 处 理 器 也 是 这 样 ， 怎 样 管理 好 这 么 多 核 也 是 相当 富有 挑战 的 事 
情 s 
下 图 为 常见 的 几 种 多 核 组 织 结构 : 
Bus M 


ulticore 


i Oe ie 
Bus 结 构 


Ring Multicore 





Ring 结 构 


Switch Multicore 











Switch 结构 
Mesh Multicore 











Mesh 结 构 


p 表 示 内 核 ，c 表 示 内 核 拥 有 的 Cache，s 表 示 Switch， 用 于 核 间 的 通 
信 。 线 条 表示 通信 路 径 。 

Bus 结 构 是 比较 简单 的 核 间 通信 方式 ， 内 核 挂 在 通信 总 线 上 ， 实 现 
简单 ， 缺 点 是 每 两 个 内 核 通 信 都 要 占用 总 线 ， 导 致 其 他 的 核 不 能 通信 ， 
通信 效率 较 低 。 

Switch 结构 是 通信 效率 最 高 的 结构 ， 每 个 内 核 两 两 相连 ， 在 1 和 2 通 
信 的 同时 ，3 和 4 也 可 以 同时 通信 。 如 果 核 少 还 好 ， 如 果 核 太 多 ， 这 种 连 
接 方式 需要 耗费 大 量 的 互联 资源 ， 通 常 4 个 核 左 右 的 处 理 器 ， 采 用 这 种 
Ts 

Ring 结 构 是 介 于 Bus 和 Switch 之 间 的 一 种 结构 ，1 和 3 通信 需要 经 过 
2， 越 近 的 两 个 核 通 信 效 率 越 高 ， 通 信 连 线 并 不 复杂 ， 实 现成 本 也 低 。 


通常 8 个 核 左 右 采 用 这 种 方式 ，Intel 的 很 多 处 理 器 采用 这 种 结构 。 

Mesh 结 构 适 用 于 核 数 非常 多 的 情况 ， 类 似 于 二 维 的 Ring 结 构 。 当 核 
数 太 多 时 ， 使 用 Switch 结构 会 导致 连 线 异常 复杂 ，N 个 内 核 两 两 通信 ， 
需要 NxN 量 级 数 的 连 线 ， 而 Mesh 是 很 好 的 选择 。Mesh 结 构 简 单 ， 易 于 
扩展 ， 通 信 效 率 也 高 。 众 核 处 理 器 〈Many-Core，Core 很 多 时 ， 多 核 束 
变 成 了 众 核 ) 首选 这 种 方式 ， 如 Tilera 的 64 核 /100 核 处 理 器 。 

因为 核 间 通信 会 影响 内 核 的 运算 效率 ，1 个 核 可 以 做 5 件 事情 ， 并 不 
代表 4 个 核 可 以 做 20 件 事情 ， 核 越 多 时 ， 数 据 交 换 延 时 越 长 。 


4.7.4 ”各 种 人 硬件 多 线程 对 比 
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各 种 硬件 多 线程 使 用 效率 对 比 

在 上 面 这 张 图 中 ， 不 同 线程 的 指令 用 不 同 的 颜色 表示 ， 每 行 表 示 一 
个 Cycle， 每 列表 不 一 个 功能 单元 。 图 中 的 处 理 右 有 4 个 功能 单元 ， 空 白 
表示 功能 单元 空闲 。 

第 1 列 岁 为 没有 硬件 多 线程 技术 的 超标 量 处 理 器 ， 一 次 只 能 执行 1 个 
线程 ， 每 个 时 刻 能 够 并 行 执 行 的 指令 数 依 赖 于 程序 的 特性 ， 有 时 功能 上 
元 会 全 部 处 于 等 待 状态 。 

第 2 列 为 细 粒 度 的 硬件 多 线程 ， 每 个 Cycle 切换 一 次 线程 ， 这 样 的 指 














令 发 射 策略 就 可 以 防止 出 现 第 1 列 中 全 部 功能 单元 等 待 的 情况 。 

第 3 列 为 粗 粒 度 的 硬件 多 线程 ， 每 个 线程 执行 一 段 时 间 ， 然 后 切换 
到 另 一 个 线程 。 

第 4 列 为 多 核 的 结构 ， 每 个 核 有 两 个 功能 单元 ， 没 有 便 件 多 线程 技 
术 ， 两 个 核 分 别 执行 两 个 线程 。 

第 5 列 为 同时 多 线程 的 结构 ， 每 个 时 刻 ， 有 的 功能 单元 在 执行 线程 1 
的 指令 ， 有 的 功能 单元 在 执行 线程 2 的 指令 ， 功 能 单元 的 利用 率 最 高 。 








4.8 ”并 行 总 结 


并 行 是 提高 内 核 性 能 最 主要 的 方法 ， 并 行 可 以 分 为 时 间 并 行 和 空间 
并 行 ， 空 间 并 行 又 可 分 为 指令 并 行 、 数 据 并 行 和 线程 并 行 。 


时 间 并 行 一 一 流水 线 
VLIW 
je ti 

并 行 超标 量 
空间 并 行 数据 并 行 一 一 SIMD 

SMT 

线程 并 行人 ”多核 

多 处 理 器 
内 核 的 并 行 性 





无 并 行 





时 间 并 行 “ 流 水 线 ) 





空间 并 行 


时 间 并 行 加 空间 并 行 

现代 处 理 右 ， 都 是 这 几 种 并 行 结构 的 混合 体 。 在 空间 并 行 的 3 种 类 
型 中 ， 指 令 并 行 和 数据 并 行 是 底层 的 并 行 ， 更 多 的 由 处 理 亏 或 编译 器 实 
现 。 线 程 并 行 是 高 层 的 并 行 ， 人 硬件 只 提供 文 持 ， 并 行 由 程序 员 实现 。 超 
标量 并 不 需要 程序 员 干 预 ，VLIW 和 数据 并 行 通常 需要 程序 员 协 助 编译 
器 优化 以 获得 更 好 的 并 行 性 。 线 程 并 行 几 乎 完全 靠 程 序 员 根据 应 用 来 决 
定 并 行 性 ， 某 些 并 行 编程 平台 能 帮助 程序 员 更 方便 的 编写 多 线程 程序 。 
绰 令 并 行 和 数据 并 行 受 处 理 需 结构 限制 ， 已 经 基本 成 熟 ， 线 程 并 行 由 于 
可 利用 的 信息 更 多 ， 并 行 空间 更 大 ， 是 未 来 处 理 吉 设计 和 程序 设计 的 重 
局 

旨 令 并 行 、 数 据 并 行 、 线 程 并 行 这 3 种 并 行 并 不 是 相互 独立 的 ， 而 
是 相互 关联 的 : 
































DLP 


TLP 
3 种 并 行 之 间 的 关系 
1. 指令 并 行 与 数据 并 行 的 关系 
数据 并 行 的 工作 也 可 以 通过 指令 并 行 来 实现 ， 不 过 数据 并 行 只 需要 
一 条 指令 ， 指 令 并 行 需要 多 条 指令 。 指 令 并 行 可 以 处 理 任意 的 数据 ， 而 
数据 并 行 只 能 处 理 连续 的 数据 。 











AAA 向量 长 度 
指令 并 行 数据 并 行 
间 令 并 行 和 数据 并 行 的 区 别 

2. 指令 并 行 与 线程 并 行 的 关系 

线程 是 由 多 条 指令 组 成 ， 指 令 并 行 和 线程 并 行 只 是 观察 的 粒度 不 一 
样 ， 小 的 叫 指令 ， 大 的 叫 线程 。 例 如 : 某 函 数 需 要 10 条 指令 实现 ， 如 果 
这 个 函数 调用 的 次 数 非常 之 多 ， 在 新 的 处 理 器 设计 时 ， 可 以 将 这 个 函数 
设计 成 一 条 指令 ， 在 原 有 人 处理 器 上 ， 这 个 函数 是 一 个 线程 ， 而 在 新 的 处 





理 锅 上， 这 个 函数 融 是 一 条 指令 。 

SMT 既 可 以 理解 为 线程 并 行 技术 ， ww。 了 技术 ， 从 
宏观 上 看 ， 它 是 多 个 线程 并 行 ， 从 微观 上 看 ， 多 条 指令 并 行 ， 只 是 
这 些 指 令 属于 不 同 的 线程 。 


3. 数据 并 行 与 线程 并 行 的 关系 


当 数 据 之 间 没 有 相关 性 ， 可 以 将 不 同 的 数据 放 到 不 同 的 线程 中 执 
行 ， 这 种 情况 下 ， 线 程 并 行 束 是 更 高 层 的 数据 并 行 








4.9 ” 微 架 构 总 结 
4.9.1 处理 器 性 能 公式 


处 理 器 是 用 来 执行 程序 的 ， 处 理 圳 的 性 能 也 就 体现 在 执行 程序 的 时 
间 上 。 如 果 执 行程 序 的 时 间 越 短 ， 则 说 明 处 理 器 的 性 能 越 强 。 我 们 将 处 
理 咒 执行 程序 的 时 间 进 行 分 解 ， 束 会 找到 影响 处 理 占 性 能 的 很 多 因素 。 


seconds Instructions cycles seconds 


program program Instruction cycle 


| 1 


程序 的 要 行 时 间 程序 的 指令 数 程序 执行 的 周期 数 。 每 周期 的 时 间 





处 理 器 性 能 公式 

这 个 公式 从 左 到 右 有 4 项 ， 第 1 项 用 时 间 除 以 程序 ， 表 示 执 行程 序 所 
需要 的 时 间 ; 第 2 项 用 指令 数 除 以 程序 表示 程序 包含 的 指令 的 数目 ， 第 3 
项 用 周期 数 除 以 指令 表示 每 条 指令 执行 所 需要 的 周期 数 ， 第 4 项 用 时 间 
除 以 周期 表示 每 个 周期 对 应 的 时 间 。 

该 公式 也 即 : 

程序 的 执行 时 间 三 程序 包含 的 指令 数 x 平均 每 条 指令 的 执行 周期 数 x 
每 周期 对 应 的 时 间 

从 处 理 占 性 能 公式 可 以 看 出 ， 为 了 提 蜗 处 理 器 的 性 能 ， 就 需要 减少 
程序 的 执行 时 间 ， 可 以 通过 如 下 途径 去 实现 : 

(1) 减少 程序 的 指令 数 。 

(2) 减少 指令 的 执行 周期 数 。 

(3) 减少 时 钟 周期 时 间 。 


4.9.2 ”通过 微 架 构 的 改进 提 高 程序 执行 效率 























1. 减少 程序 的 指令 数 


旨 令 用 来 处 理 数据 ， 如 果 一 次 能 处 理 更 多 的 数据 ， 那 么 指令 就 可 以 
减少 ， 因 此 SIMD 技 术 能 减少 程序 的 指令 数 。 

处 理 器 将 多 条 操作 合并 成 一 条 指令 ， 也 能 减少 程序 的 指令 数 ， 一 个 
例子 就 是 DSP 的 乘 索 加 指令 ， 将 一 般 处 理 妖 上 的 乘法 和 加 法 指令 合并 成 
一 条 指令 ， 执 行 时 间 和 乘法 指令 相同 。 


2. 减少 指令 的 执行 周期 数 


指令 的 执行 周期 数 有 一 个 洋 名 ， 叫 做 CPI (Cycles Per 
Instruction〉。 此 CPI 不 等 于 彼 CPI (Consumer Price Index， 消 费 者 物价 
指数 ) ， 不 过 大 家 对 想 要 降低 CPI 的 愿望 都 是 这 么 的 强烈 。 

当 处 理 器 的 流水 线 结构 定义 好 后 ， 指 令 的 执行 周期 数 就 固定 好 了 。 
里 然 不 能 直接 减少 指令 的 执行 周期 数 ， 不 过 我 们 可 以 逆 回 思维 ， 增 加 每 
个 周期 执行 的 指令 数 。 以 前 只 有 一 个 顺 渔 ， 那 就 多 增 养 几 个 顺 汐 ， 以 前 
只 有 一 个 执行 单元 ， 那 就 在 处 理 器 上 多 捍 几 个 执行 单元 。 这 就 是 指令 级 
并 行 ， 也 是 处 理 器 在 很 长 一 段 时 间 内 的 主流 设计 思想 。 


3. 减少 时 钟 周期 时 间 


我 们 很 小 的 时 候 就 学 过 周期 和 频率 的 关系 : T= 1/f。 

数字 电路 以 周期 Cycle) 为 基本 的 执行 单位 ， 每 个 Cycle 时 间 越 
短 ， 则 电路 运算 速度 越 快 ， 也 即 频 率 越 高 。Imtel、AMD 等 公司 在 多 核 风 
靡 之 前 都 极力 地 提高 处 理 器 工作 频率 ， 很 多 玩家 更 是 热衷 于 超频 。 

集成 电路 制程 工艺 的 进步 和 流水 线 优 化 是 提高 频率 的 主要 手段 ， 先 
进 的 制程 工艺 减少 了 信和 号 的 传输 延迟 ， 使 得 频率 得 以 提升 。 流 水 线 级 数 
越 深 ， 每 个 周期 完成 的 任务 越 少 ， 信 和 号 的 传输 延迟 越 小 ， 频 率 也 得 以 提 
J 


4. 增加 同时 执行 的 线程 数 














将 程序 分 解 为 多 个 线程 ， 利 用 处 理 器 的 多 核 ， 或 者 SMT 来 并 行 执行 
更 多 的 线程 ， 也 能 缩短 程序 的 执行 时 间 。 


4.9.3 ”商用 处 理 右 微 染 构 的 选择 


处 理 器 在 设计 时 ， 都 会 根据 自己 的 应 用 对 技术 有 所 取舍 。 是 选择 In- 
order 还 是 Out-of-order? 选择 单 发 射 还 是 多 发 射 ? 是 否 选择 SIMD? 选择 
多 少数 据 长 度 的 SIMD? 是 否 选择 SMT? 处 理 器 内 部 包含 多 少 个 核 ? 

高 性 能 、 低 功 耗 是 处 理 器 设计 的 基本 要 求 ， 不 过 它们 之 间 常 常 是 矛 
盾 的 ，Intel 以 前 的 处 理 器 设计 ， 更 多 的 是 考虑 性 能 ， 现 在 ，Intel 更 关注 
单位 功 耗 下 的 性 能 (Performance Per Watt) 。 选 择 Performance Per Watt 
较 好 的 技术 ， 来 搭建 合适 的 处 理 器 ， 已 经 成 为 现代 处 理 器 设计 的 主流 思 
想 。Itel 也 称 ， 现 代 处 理 器 设计 ， 受 面积 的 影响 小 ， 受 功 耗 的 影响 大 。 

在 诸多 技术 中 ， 多 核 、SMT、VLIW、SIMD 都 是 Performance Per 
Watt 较 好 的 技术 ， 乱 序 执行 内 核 的 Performance Per Watt 并 不 高 ， 主 要 原 
因 是 乱 序 执行 内 核 的 功 耗 太 大 。SMT 的 引入 ， 使 得 功能 单元 的 并 行 性 得 
以 加 强 ， 这 样 乱 序 执行 内 核 的 意义 束 不 是 这 么 明显 了， 因此 Intel 在 为 低 
功 耗 应 用 设计 的 Atom 处 理 嚣 中， 舍弃 了 使 用 多 年 的 乱 序 执行 内 核 ， 而 
采用 了 原始 的 、 简 单 的 顺序 执行 内 核 。DSP 主 要 用 在 低 功 耗 场合 ， 但 同 
时 要 高 性 能 ， 采 用 多 核 十 VLIW 十 SIMD 十 简单 内 核 的 结构 。 

















处 理 可 的 “ 肚 量 ” 


众 里 寻 她 千百度 ， 莫 然 回 首 ， 那 人 却 在 Cache 处 。 


第 5 章 ”Cache 





导读 CPU 与 内 存 条 





长 久 以 来 ， 内 存 条 一 直 陪 伴 在 CPU 身 旁 ， 不 分 寒冬 和 酷暑 ， 不 离 不 弃 。CPU 也 逐渐 对 她 暗 
生 情 司 ， 一 日 ，CPU 终 于 忍 不 住 对 内 存 条 说 :“ 你 在 我 心 ( 蕊 ) 中 ， 留 下 了 印记 ! ” 





你 在 我 心中 留 下 了 印记 !/ 
人 


Tu 


CPU 与 内 存 条 
CPU 为 什么 会 这 样 说 呢 ， 这 是 因为 ，CPU 内 部 有 一 段 存 储 空间 ， 内 存在 里 面 留 下 了 一 些 数 
据 ， 这 上 段 空间 就 是 Cache。 

















探索 既 部 悉 又 陌生 的 领域 
技术 来 源 于 生活 


使 用 电脑 的 人 对 Cache 并 不 会 陌生 ， 只 要 在 Windows 下 搜 
索 “Cache”， 就 会 找到 一 大 堆 命 名 包括 “Cache” 的 文件 和 文件 夹 ， 系 统 目 
录 下 有 ， 浏 览 器 目录 下 有 ，QQ 目 录 下 有 ，PPStream 目 录 下 有 ， 迅 雷 看 


5.1 什么 是 Cache 





5.1.1 随处 可 见 的 Cache 











维基 百科 对 Cache 的 定义 是 : 它 是 一 个 部 件 ， 透 明 地 存储 了 一 些 数 
据 ， 当 下 次 需要 这 些 数据 时 ， 就 能 更 快 的 访问 到 。 以 迅雷 看 看 为 例 ， 在 
网 络 上 看 完 一 个 节目 后 ， 节 目 束 存储 在 本 地 硬盘 上 ， 当 下 次 再 看 这 个 节 
日 时 ， 就 直接 访问 硬盘 上 缓存 的 内 容 ， 而 不 是 从 网 络 上 去 取 ， 这 样 获取 
节目 的 速度 就 加 快 了 。 “透明 ”的 意思 是 ， 用 户 不 需要 关心 这 段 数 据 存 在 
哪 。 

Cache 的 思想 ， 并 不 是 计算 机 专 有 的 ， 它 来 源 于 生活 。 

我 们 在 大 学 读书 时 ， 书 都 放 在 宿舍 里 ,今天 要 上 《高 数 》 课 ， 就 把 
《高 数 》 的 课本 放 进 书包 ， 明 天 要 上 《C 语 言 》， 束 把 书包 中 的 《高 
数 》 课 本 取出 来 ， 把 《C 语 言 》 课 本 放 进 书包 ， 这 个 包 就 是 一 个 
Cache 〈 绥 存 ) 。 垃 圾 黎 、 旅 行 包 等 都 可 以 叫 Cache。 


一 切 都 是 收益 和 成 本 的 权衡 


男生 女生 在 谈 恋爱 时 ， 痢 会 将 最 好 的 一 面 表现 出 来 ， 可 是 一 旦 在 一 
起 时 ， 就 会 发 现 不 是 这 有 问题 ， 惑 是 那 有 问题 。 处 理 需 公司 在 宣传 目 己 
的 处 理 器 时 ， 也 会 声称 一 秒 钟 能 做 多 少 次 乘法 、 每 个 Cycle 能 并 行 处 理 
多 少 条 指令 等 ， 可 是 当 我 们 实际 使 用 处 理 器 时 ， 就 会 发 现 远 不 是 那么 回 
事 。 前 面 我 们 已 经 知道 ， 实 际 程序 的 并 行 性 有 限 ， 不 能 将 处 理 器 的 资源 
全 部 利用 ， 分 文 也 会 导致 处 理 喜 流水 线性 能 恶化 ， 而 最 为 严重 的 ， 则 是 























5.1.2 处理 器 的 Cache 














内 存 速度 远 远 跟 不 上 处 理 器 的 速度 。 

处 理 器 的 工作 频率 一 直 都 在 突飞猛进 ， 但 是 内 存 的 工作 频率 却 增长 
缓慢 ， 完 全 不 在 一 个 档次 。 程 序 和 数据 都 在 内 存 中 ， 程 序 和 数据 迟 迟 进 
不 了 处 理 器 ， 这 样 即使 处 理 器 工作 再 快 也 没有 用 。 

其 实 内 存 也 不 是 不 能 提速 ， 只 是 这 一 切 都 是 个 成 本 问题 。 古 人 很 早 
就 告诉 我 们 ， 鱼 和 能 掌 不 能 兼 得 ， 速 度 快 的 存储 器 单位 成 本 下 的 容量 
小 ， 容 量 大 的 存储 器 速度 慢 。 总 之 ， 越 快 的 存储 器 越 贵 ， 成 本 越 高 。 

下 图 描述 了 各 种 存储 器 速度 和 单位 容量 成 本 的 关系 : 

















处 理 器 快 如 奔 马 内 存 慢 如 乌龟 


处 理 器 快 如 奔 马 ， 内 存 慢 如 乌 凶 


的 成 本 








速度 和 单位 容量 成 本 的 关系 








磁带 《〈Tape) 和 磁盘 (Disk)〉 单 位 容量 的 成 本 较 低 ， 用 于 大 规模 的 
数据 存储 ， 不 过 速度 也 慢 。DRAM (Dynamic Random Access Memory) 
速度 一 般 ， 成 本 一 般 ， 用 于 内 存 ，Register 和 SRAM (Static Random 
Access Memory) 速度 快 ， 成 本 高 ， 用 在 处 理 器 内部， 但 是 容量 很 少 ， 
否则 处 理 器 功 耗 、 面 积 、 成 本 都 吃不消 。 

为 了 弥补 内 存 的 速度 低下 问题 ， 处 理 器 内 部 会 放置 一 些 SRAM 做 
Cache〈 绥 存 ) ， 来 提高 处 理 费 访问 程序 和 数据 的 速度 。Cache 作 为 连接 
内 核 和 内 存 的 桥 染 : 

















人 处理 器 


Cache 





Cache 一 一 连接 内 核 和 内 存 的 桥梁 

为 什么 处 理 器 内 部 加 了 一 个 速度 快 、 容 量 小 的 Cache 就 能 提速 呢 ? 

我 们 先 来 看 看 生活 中 的 例子 : 

例 1: 当 你 今天 在 图 书馆 看 了 《 射 雕 英雄 传 》 后 ， 明 天 你 去 图 书馆 
很 可 能 还 会 看 它 ， 直 到 你 看 完 为止 。 既 然 每 天 都 要 去 看 ， 你 就 会 想 ， 把 
这 本 书 放 在 一 个 靠近 走廊 的 书架 上 在 图 书馆 允许 的 情况 下 和 不 会 被 别 
人 拿 走 的 情况 下 )， 这 样 就 可 以 省 掉 每 天 去 里 面 书架 拿 书 的 时 间 。 

例 2: 你 发 现 自己 深 深 地 被 金良 的 小 说 迷 住 了 ， 于 是 你 干脆 将 周 
转 “ 飞 雪 连 天 财 白 鹿 ， 实 书 神 侠 倚 腰 入” 这 些 书 全 部 搬 到 靠近 走廊 的 书架 
上 ， 这 样 以 后 看 书 时 节省 的 时 间 更 多 。 











Cache 时 间 局 部 性 和 空间 局 部 性 示例 

上 面 这 两 个 例子 分 别 阐明 了 Cache 的 时 间 局 部 性 和 空间 局 部 性 : 

时 间 局 部 性 (Temporal Locality) : 如 果 某 个 数据 被 访问 ， 那 么 在 
不 久 的 将 来 它 很 可 能 再 次 被 访问 〈 如 例 1) 。 最 典型 的 例子 就 是 循环 ， 
循环 体 代码 被 处 理 器 重复 的 执行 ， 直 到 循环 结束 。 如 果 将 循环 体 代码 放 
在 Cache 中 ， 只 是 第 一 次 取 这 些 代 码 需要 耗费 时 间 ， 以 后 这 些 代 码 每 次 
都 能 被 内 核 快 速 的 访问 ， 也 就 节约 了 时 间 。 

空间 局 部 性 (Spatial Locality) : 如 果 某 项 数据 被 访问 ， 那 么 与 它 
相 临 的 数据 很 可 能 很 快 就 被 访问 (如 例 2〉 。 最 典型 的 例子 就 是 数组 ， 
数组 中 的 元 素 常常 按照 顺序 依次 被 程序 访问 。 衡 量 内 存 的 速度 ， 有 两 个 
标准 : 一 是 延 时 ， 二 是 吞吐 量 。 我 们 说 的 内 存 速 度 慢 ， 主 要 是 指 延 时 ， 
这 就 好 比 我 们 去 一 个 很 远 的 地 方 ， 很 长 时 间 才 能 到 达 ， 这 就 是 延 时 大 ， 
但 是 这 并 不 妨碍 我 们 一 次 齐 很 多 的 东西 ， 这 就 是 生 吐 量 大 。 我 们 一 次 将 
数组 中 的 多 个 元 素 从 内 存 中 复制 到 Cache 中 ， 虽 然 访 问 第 一 个 元 素 需 要 
花费 一 些 时 间 ， 但 是 访问 以 后 的 元 素 就 快 了 ， 这 就 是 Cache 在 空间 局 部 
性 上 的 应 用 。 











5.2 ”处 理 器 的 Cache 结 构 
秘密 


探索 那些 鲜 为 人 知 的 





5.2.1 Cache 的 层次 一 -层次 化 管理 


我 们 通 音 会 有 这 样 的 生活 习惯 ， 将 最 利用 的 东西 放 在 桌 上 ， 这 样 可 
以 最 方便 地 拿 到 ， 将 次 常用 的 东西 放 在 抽 导 里 ， 也 能 较 快 地 拿 到 ， 将 不 
常用 的 东西 放 在 箱子 里 ， 去 箱子 里 拿 东 西 需要 耗 一 点 时 间 。 

这 种 思想 也 被 用 在 了 Cache 中 ， 现 在 的 处 理 器 ， 都 采用 多 级 的 Cache 
组 织 形 式 ， 来 达到 性 能 和 功 耗 的 最 优 。 

核 处 理 喜 大 都 采用 如 下 的 Cache 结 构 : 


人 





LID 























单 核 处 理 器 的 Cache 结 构 

核 处 理 器 通常 包含 两 级 Cache: L1 ”Cache 和 L2 Cache, 工 表 示 
Level (级 ) 。 在 L1 中 ， 程 序 (Program) 和 数据 (Data) 使 用 各 自 的 组 
存 (LIP 和 LID〉， 而 在 L2 中 ， 程 序 和 数据 共用 一 套 绥 存 。 通 常 L1 空 间 
为 几 十 K，L2 空 间 为 几 百 K。 

当 内 核 需 要 访问 程序 或 数据 时 ， 会 先 从 L1 中 去 取 ， 如 果 L1 中 没 
有 ， 则 L1 从 L2 中 将 数据 导入 ， 如 果 L2 中 也 没有 ， 则 L2 从 内 存 中 将 数据 
导入 。 

L1 通 常 和 内 核 同 频率 ， 以 保证 速度 ，L2 通 常会 降 频 使 用 ， 工 作 频 
率 比 内 核 低 ， 这 样 能 降低 功 耗 。 

多 核 处 理 器 大 都 采用 如 下 的 Cache 结 构 : 























多 核 处 理 器 的 Cache 结 构 


在 多 核 处 理 嚣 中， 一 般 每 个 内 核 独 享 自己 的 L1 和 L2， 所 有 的 内 核 
会 共用 一 个 大 容量 的 L3。 


5.2.2 Cache 的 工作 方式 一 一 丘比特 之 剑 ， 命 中 与 未 命中 


整个 Cache 空 间 被 分 成 了 NN 个 line， 每 个 line (Cache line) 通常 是 32 
byte、64 byte 等 ，Cache line 是 Cache 和 内 存 交 换 数 据 的 最 小 单位 ， 每 个 
Cache line 最 少 会 包含 如 下 3 部 分 : 


Cache 基 本 结构 


block 中 存储 的 是 内 存在 Cache 中 缓存 的 数据 ，tag 中 存储 的 是 该 
Cache line 对 应 的 内 存 块 的 地 址 。valid 表 示 该 Cache line 中 的 数据 是 否 
效 。 

下 面 描述 了 一 个 基本 的 Cache 工 作 方式 ， 假 设 处 理 器 只 有 一 级 
Cache， 当 内 核 访 问 一 个 数据 时 ， 内 核 首 先 会 在 Cache 中 找 ， 一 开始 自然 
找 不 到 ， 于 是 就 发 生 了 Cache miss (未 命中 ) ， 这 时 内 存 中 的 数据 被 导 
入 到 一 个 Cache line 的 block 中 ， 将 地 址 写 到 相应 的 tag 位 置 处 ， 并 将 valid 
标志 置 1。 当 下 一 次 内 核 继续 访问 这 个 数据 时 ， 处 理 器 根据 地 址 在 Cache 


中 找到 对 应 的 Cache line， 发 现 valid 标 志 为 1 并 且 tag 标 志 也 匹配 ， 束 知道 
找到 了 数据 ， 直 接 从 Cache 中 取 这 个 数据 ， 这 个 过 程 叫 Cache hit。 


Cache hit Cache miss 


大 


光一 


Cache hit (命中 ) 和 Cache miss 〈 未 命中 ) 


当 Cache 命 中 时 ， 内 核 直接 从 Cache 中 取 数 据 ， 时 间 通 常 为 几 个 
cycle， 当 Cache 未 命中 时 ， 数 据 需 要 从 内 存 中 导入 ， 时 间 通 常 是 几 十 、 
几 百 个 cycle， 极 大 地 拖 震 了 处 理 器 的 性 能 。 


5.2.3 Cache 的 映射 方式 一 一 多 对 一 的 策略 


由 于 内 存 的 空间 要 远 远 大 于 Cache 的 空间 ， 因 此 内 存 中 的 数据 搬 到 
Cache 中 时 ， 会 存在 一 个 多 对 一 的 映射 。 





1. Full-associative Cache (全 关联 Cache) 








内 存 以 字 市 为 存储 单位 ， 不 过 由 于 内 存 和 Cache 交 换 数 据 的 最 小 单 
位 是 一 个 Cache line， 因 此 姑且 将 内 存 也 看 成 按照 line 的 方式 存储 。 

在 Full-associative Cache 中 ， 内 存 中 的 每 个 line 能 够 被 映射 到 Cache 中 
的 任意 一 个 Cache line， 如 下 图 : 

在 32 位 处 理 器 中 ， 地 址 线 为 32bit， 如 果 每 个 line 为 64 byte (6 bit 表 
示 ) ， 那 么 每 个 Cache line 的 tag 需 要 26bit (32 一 6 二 26) 。 

全 关联 Cache 有 个 缺点 ， 那 就 是 当 判 断 一 个 数据 是 不 是 在 Cache 中 
时 ， 它 需要 将 地 址 和 所 有 Cache line 的 tag 进 行 死 配 ， 成 本 太 高 。 在 实际 
的 处 理 嚣 中， 这 种 方式 很 少见 。 





2. Direct-mapped Cache (直接 映射 Cache) 


与 Full-associative Cache 不 同 的 是 ，Direct-mapped Cache 将 内 存 按照 
Cache 的 大 小 分 成 了 N 个 Page， 每 个 Page 和 Cache 大 小 相同 。Page 中 的 line 
0 只 能 映射 到 Cache 中 的 line 0， 依 次 类 推 。 

内 存 的 Cache Page 示 例如 下 : 


Cache 内 存 





Line 4 


Line 5 


Line 6 


Line 7 


Full-associative Cache 


内 存 


a Line 0 CC, 





内 存 的 Cache Page 示 例 


假设 Cache 有 4 个 Cache line， 那 么 Direct-mapped 的 映射 方式 如 下 : 

Direct-mapped 映 射 方式 最 直接 的 一 个 好 处 是 : 随便 给 一 个 地 址 ， 通 
过 地 址 就 能 知道 它 位 于 哪个 Cache ”line 中 ， 这 是 因为 每 一 个 内 存 地 址 ， 
都 只 会 映射 到 唯一 一 个 Cache line 中。 为 了 Cache line 知 道 自己 存储 的 是 
哪个 地 址 处 的 数据 ，tag 需 要 记录 Page 的 索引 。 以 C64 DSP 的 LIP Cache 为 
例 ， 地 址 总 线 为 32bit，LIP 大 小 为 16Kbyte (14bit 表 示 ) ， 每 个 Cache 
line 32 byte (5bit 表 示 ) ， 于 是 tag 需 要 18 bit (32-14) 。 

每 个 32bit 的 地 址 被 分 成 了 3 部 分 : tag 用 于 标识 该 Cache line 属 于 哪个 
Page，line 指 示 该 数据 应 该 存储 在 哪 一 行 Cache 中 ，Offset 表 示 数 据 应 该 
存储 在 Cache line 中 的 哪个 位 置 。 下 图 为 C64 DSP LIP Cache 中 32 bit 地 址 
的 结构 。 


内 存 





Direct-mapped 映 射 实例 
18bit 9bit Sbit 


Offset 


C64 DSP LIP Cache 中 32 bit 地 址 的 结构 


使 用 Direct-mapped Cache，Cache 控 制 器 要 判断 一 个 数据 是 人 否 在 











Cache 中 时 ， 首 先 根据 这 个 数据 的 地 址 提取 出 TAG 〈 头 18bit) 和 

LINE 〈 中 间 9bit) ， 根 据 LINE 找 到 对 应 的 Cache line， 如 果 Cache line 中 
的 tag 和 TAG 一 致 ， 并 且 valid 标 志 为 1， 那 么 Cache 就 命中 ， 反 之 ， 则 未 
命中 。 


3. Set-associative Cache (组 关联 Cache) 


Direct-mapped Cache 要 比 Full-associative Cache 简 单 ， 也 是 处 理 器 上 
比较 常用 的 方式 ， 不 过 Direct-mapped Cache 在 很 多 情况 下 会 有 很 大 的 缺 
陷 。 


以 下 面 这 段 程序 为 例 : 








for (tm OF i< 10s 4++ ) 


{ 





cC += ali] 十 DT] 
} 


假设 Cache 只 有 4 个 Cache line， 数 组 a 存储 在 内 存 的 line 0， 数 组 b 存 
储 在 内 存 的 line 4， 则 Cache 访 问 过 程 如 下 : 
(1) CPU 访 问 a[0]，Cache ”miss， 数 组 a 从 内 存 中 被 搬移 到 Cache 
line 0 中 。 
(2) CPU 访问 b[0]，Cache ”miss， 数 组 b 从 内 存 中 被 搬移 到 Cache 
line 0 中 。 
(3) CPU 访问 a[1]，Cache ”miss， 数 组 a 从 内 存 中 被 搬移 到 Cache 
line 0 中 。 
(4) CPU 访问 b[1，Cache ”miss， 数 组 b 从 内 存 中 被 搬移 到 Cache 
line 0 中 。 
CS 
由 于 a 和 b 都 映射 到 Cache line 0， 每 次 访问 数据 都 发 生 Cache miss， 
严重 影响 效率 。 


内 存 





Cache 冲 突 


在 上 面 的 这 个 例子 中 ，Cache line 1、Cache line 2、Cache line 3 都 浪 
费 了 ， 而 Cache line 0 却 冲 突 严 重 。 其 实 Full-associative Cache 可 以 解决 这 
个 问题 ， 因 为 内 存 中 的 每 个 line 都 可 以 映射 到 任意 Cache line 中 ， 从 这 个 
角度 来 看 ，Full-associative Cache 效 率 最 高 ， 但 是 由 于 查找 复杂 ， 所 以 很 
少 使 用 。 而 商用 的 处 理 器 都 使 用 Set-associative Cache 来 解决 这 个 问题 。 

Set-associative Cache 将 Cache 分 成 了 多 个 way( 份 )， 如 下 图 所 示 : 

Cache way 1 和 Cache way 0 是 完全 相同 的 结构 ， 访 问 a 时 ，a 被 Cache 
到 way 0 的 line 0 中 ， 访 问 b 时 ， 发 现 way 0 的 line 0 已 经 被 使 用 了 ， 就 将 b 
缓存 到 way 1 的 line 0 中 ， 这 样 惑 解决 了 上 面 的 冲突 问题 。 数 组 a 和 b 的 访 
问 只 在 第 一 次 访问 a[0] 和 b[0] 时 需要 从 内 存 叶 入 ， 其 他 的 时 候 都 能 直接 
从 Cache 中 取 数 。 

Direct-mapped Cache 等 同 于 1-way Set associative Cache。 

在 相同 Cache 容 量 下 ，Cache way 越 多 ， 则 每 个 Cache way 的 容量 就 
越 少 。Cache way 的 增多 会 减少 Cache miss， 但 是 Cache way 容量 的 减 
小 ， 又 会 增加 Cache miss。Cache way 越 多 ，Cache 的 硬件 结构 也 越 复 
杂 ， 功 耗 也 越 高 。 不 同 的 处 理 器 都 会 根据 自己 的 应 用 来 设 定 最 佳 的 


DR 旦 - 


Cache way 数 目 、 每 个 Cache way 的 容量 。 

















Cache way 0 内 存 


line 2 line 2 


line 3 line 3 


站 


Cache way | 


line 6 


jine. 3 line 7 


a 


line 3 


Set-associative Cache 


在 TI 的 c64 十 DSP 内 核 中 ，LIP 使 用 1 way Cache，LID 使 用 2 way 
Cache，L2 不 区 分 程序 和 数据 ， 使 用 4 way Cacheo x86 CPU 使 用 更 多 的 
Cache way。 
置换 策略 

Cache 的 容量 毕竟 有 限 ，Cache way 也 有 用 完 的 时 候 ， 当 Cache way 
用 完 时 ， 再 来 数据 ， 束 要 蕉 换 其 中 的 一 个 了 ， 那 么 蔡 换 哪个 呢 ? 

第 用 的 蔡 换 策略 有 : 

(1) 随机 (CRandom) ， 随 便 找 个 替换 。 

(2) 先进 先 出 〈First In First Out，FIFO) ， 最 早 被 使 用 的 那个 way 
被 蔡 换 。 

(3) 最 近 最 少 被 使 用 〈Least Recently Used，LRU) ， 蔡 换 最 近 最 
少 被 使 用 的 那个 way。 

在 这 几 种 策略 中 ，LRU 人 性 能 最 好 ，LRU 基 于 Cache 的 时 间 相 关 性 ， 
刚刚 被 访问 的 数据 很 有 可 能 继续 被 访问 ， 很 久 都 没有 被 访问 的 数据 则 很 





可 能 就 不 会 被 访问 了 。 
你 不 需要 知道 真相 


前 面 只 提 到 了 Cache 的 读 方 式 ， 当 CPU 修改 了 Cache 中 的 数据 ， 内 存 
中 的 数据 需 不 需要 跟着 改变 呢 ? 
Cache 提 供 了 两 种 写 策略 。 


5.2.4 ”Cache 的 写 方式 





1. Write through ( 写 通 ) 


Write _ through 策略 是 指 每 次 CPU 修改 了 Cache 中 的 内 容 ，Cache 立 即 
更 新 内 存 的 内 容 。 如 下 图 所 示 : 





CPU 读 入 变量 x 









Cache( x=5) 


Interconnection 


CPU 将 x 改 为 5 
在 上 面 的 这 个 例子 中 ， 内 核 读 入 了 变量 x， 它 的 值 为 3， 不 久 后 内 核 
将 x 改 成 5， 内 核 修改 的 是 Cache 中 的 数据 ， 当 Cache 采 用 Write through 策 
略 时 ，Cache 控 制 器 将 x 的 值 更 新 到 内 存 中 。 


2. Write back ( 写 回 ) 


Write back 策略 是 指 内 核 修 改 Cache 的 内 容 后 ，Cache 并 不 会 立即 更 
新 内 存 中 的 内 容 ， 而 是 等 到 这 个 Cache line 因 为 某 种 原因 需要 从 Cache 中 
移 除 时 ，Cache 才 更 新 内 存 中 的 数据 。 例 如 ，Cache 的 line ”0 已 经 存储 了 
内 存 line 0 的 数据 ， 内 核 想 修改 地 址 在 内 存 line 0 中 的 变量 ， 它 实际 上 修 
改 的 是 Cache line 0 中 的 数据 ， 当 内 核 访 问 内 存 line 4 时 ， 这 块 数据 也 需 
要 使 用 Cache line 0， 这 时 Cache 控 制 器 会 先 将 Cache line 0 的 内 容 更 新 到 
内 存 的 line 0， 然 后 再 将 Cache line 0 作为 内 存 line 4 的 缓存 。 内 存 line 0 在 
很 长 时 间 内 存储 的 都 不 是 最 新 的 数据 ， 不 过 这 并 不 影响 程序 的 正确 性 。 

















D D 


CPU 读 入 变量 x 


| cw | 
Cache( x=5) 


l 


Interconnection 


CPU 将 x 改 为 5 
在 上 面 的 这 个 例子 中 ， 内 核 修 改 了 x， 但 是 x 并 没有 被 更 新 到 内 存 













中 。 
Write through( 写 通 ) 由 于 有 大 量 的 访问 内 存 的 操作 ， 效 率 较 低 ， 
大 多 数 处 理 器 都 使 用 Write back( 写 回 ) 策略 。 

Cache 怎 么 知道 这 行 的 数据 有 没有 被 修改 呢 ? 这 就 需要 新 增 一 个 标 
dirty 标 志 。dirty 标 志 为 1， 表 示 Cache 的 内 容 被 修改 ， 和 内 存 的 内 
容 不 一 致 ， 当 该 Cache line 被 移 除 时 ， 数 据 需 要 被 更 新 到 内 存 ，dirty 标 志 
位 为 0 ( 称 为 clean) ， 表 示 Cache 的 内 容 和 内 存 的 内 容 一 致 。 


十 
LU 





下 图 为 增加 了 dirty 标 志 的 Cache 结 构 : 
Cache line 1 tag block 
Cache line 2 tag 


增加 dirty 标 志 的 Cache 结 构 


程序 Cache 不 会 被 修改 ， 不 需要 dirty 标 志 ， 数 据 Cache 需 要 dirty 标 


5.3 ”Cache 一 致 性 








5.3.1 一 致 性 问题 的 产生 言 妃 不 对 称 导 致 的 问题 


现实 生活 中 常常 会 出 现 因 为 沟通 不 畅 而 导致 的 扯皮 ， 一 方 改变 了 某 
些 东 西 ， 又 没有 及 时 通知 到 另 一 方 ， 导 致 两 方 掌握 的 信息 不 一 致 ， 这 就 
是 一 致 性 问题 。 

多 核 处 理 器 也 有 这 样 的 问题 ， 在 下 面 这 个 简单 的 多 核 处 理 器 示例 
中 ， 内 存 中 有 一 个 数据 x， 它 的 值 为 3， 它 被 缓存 到 Core 0 和 Core 1 中 ， 
不 过 Core 0 将 x 改 为 5， 如 果 Core 1 不 知道 x 已 经 被 修改 了 ， 还 在 使 用 旧 的 
值 ， 束 会 导致 程序 出 错 ， 这 就 是 Cache 的 不 一 致 。 


多 核 处 理 器 


Cache( x=5) Cache( x=3 人 


Memory(X=3) 











Cache 的 不 一 致 示例 


5.3.2 Cache 一 致 性 的 底层 操作 


为 了 保证 Cache 的 一 致 性 ， 处 理 喜 提供 了 两 个 保证 Cache 一 致 性 的 底 
层 操 作 : Write invalidate 和 Write update。 
Write invalidate〈 置 无 效 ) : 当 一 个 内 核 修 改 了 一 份 数据 ， 其 他 内 


核 上 如 果 有 这 份 数 据 的 复制 ， 就 置 成 无 效 〈invalid) 。 
在 下 面 的 这 个 例子 中 ，3 个 Core 都 使 用 了 内 存 中 的 变量 x，Core 0 将 
它 修 改 为 5， 其 他 Core 就 将 自己 对 应 的 Cache line 置 成 无 效 (invalid) 。 








Write invalidate 示 例 


Write update〈 写 更 新 ) : 当 一 个 内 核 修 改 了 一 份 数据 ， 其 他 地 方 如 
果 有 这 份 数据 的 复制 ， 束 都 更 新 到 最 新 值 。Write update 示 例如 下 : 





Write update 示 例 
Write invalidate 和 Write update 比 较 : Write invalidate 是 一 种 很 简单 的 
方式 ， 不 需要 更 新 数据 ， 如 果 Core 1 和 Core 2 以 后 不 再 使 用 变量 x， 这 时 


候 采 用 Write invalidate 就 非常 有 效 。 不 过 由 于 一 个 valid 标 志 对 应 一 个 
Cache line， 将 valid 标 志 置 成 invalid 后 ， 这 个 Cache line 中 其 他 的 本 来 有 
效 的 数据 也 不 能 被 使 用 了 。Write update 策略 会 产生 大 量 的 数据 更 新 操 
作 ， 不 过 只 用 更 新 修改 的 数据 ， 如 果 Core 1 和 Core 2 会 使 用 变量 x， 那 么 
Write update 就 比较 有 效 。 由 于 Write invalidate 简 单 ， 大 多 数 处 理 器 都 使 
用 Write invalidate 策 略 。 


5.3.3 “Cache 一 致 性 协议 


Write invalidate 提 供 了 实现 Cache 一 致 性 的 简单 思想 ， 人 处 理 器 上 会 有 
一 套 完 整 的 协议 ， 来 保证 Cache 一 臻 性。 比较 经 典 的 Cache 一 致 性 协议 当 
属 MESI 协 议 ， 奔 腾 处 理 器 有 使 用 它 ， 很 多 其 他 的 处 理 器 都 是 使 用 它 的 
变种 。 

前 面 介绍 的 Cache 中 每 个 Cache jline 有 两 个 标志 : dirty 和 valid 标 志 ， 
它们 很 好 的 描述 了 Cache 和 Memory( 内 存 ) 之 间 的 数据 关系 (数据 是 否 
有 效 、 数 据 是 否 被 修改 ) ， 而 在 多 核 处 理 嚣 中， 多 个 核 会 共享 一 些 数 
据 ，MESI 协 议 就 包含 了 描述 共享 的 状态 。 

在 MESI 协 议 中 ， 每 个 Cache line 有 4 个 状态 ， 可 用 两 个 bit 表 示 ， 它 们 
分 别 是 : 








状态 描述 
_M (Modified) ”这 行 数据 有 效 ， 数 据 被 修改 了 ， 和 内 存 中 的 数据 不 
臻 ， 数 据 只 存在 于 本 Cache 中 

E (Exclusive) 这 行 数据 有 效 ， 数 据 和 内 存 中 的 数据 一 致 ， 数 据 只 
存在 于 本 Cache 中 

S (Shared) 这 行 数据 有 效 ， 数 据 和 内 存 中 的 数据 一 致 ， 数 据 存 
在 于 很 多 Cache 中 

I (Invalid) 这 行 数据 无 效 


M (Modified) 和 E (Exclusive〉 状态 的 Cache ” line， 数 据 是 独 有 
的 ， 不 同 点 在 于 M 状 态 的 数据 是 dirty 的 〈 和 内 存 的 不 一 致 ) ，E 状 态 的 
数据 是 clean 的 〈 和 内 存 的 一 致 ) 。 

S 〈Shared) 状态 的 Cache line， 数 据 和 其 他 的 Cache 共 享 。 只 有 clean 


的 数据 才能 被 多 个 Cache 共 享 。 
I (Invalid〉 表 示 这 个 Cache line 无 效 。 
FE 状态 示例 如 下 : 
只 有 Core 0 访问 变量 x， 它 的 Cache line 状 态 为 E (Exclusive) 。 
S 状 态 示 例如 下 : 
3 个 Core 都 访问 变量 x， 它 们 对 应 的 Cache line 为 S (Shared) 状态 。 
M 状 态 和 I 状态 示例 如 下 : 











M 状 态 和 I 状态 


Core 0 修改 了 x 的 值 之 后 ， 这 个 Cache line 变 成 了 M (Modified) 状 
态 ， 其 他 Core 对 应 的 Cache line 变 成 了 I (Invalid) ) 状态 。 

在 MESI 协 议 中 ， 每 个 Cache 的 Cache 控 制 器 不 仅 知道 自己 的 读 写 操 
作 ， 而 且 也 监听 〈snoop) 其 他 Cache 的 读 写 操作 。 每 个 Cache line 所 处 的 
状态 根据 本 核 和 其 他 核 的 读 写 操作 在 4 个 状态 间 进 行 迁 移 。 

MESI 协 议 状态 迁移 图 如 下 : 







Exclusive 






Remote 

Write 人 
化 Eachse 检 YA 
这 行 数据 的 备份 
~S: 其 他 Cache 没 
有 这 行 数据 的 备份 ~ osss one o” 


MESI 协 议 状 态 迁 移 图 


在 上 图 中 ，Local Read 表 示 本 内 核 读本 Cache 中 的 值 ，Local Write 表 
示 本 内 核 写 本 Cache 中 的 值 ，Remote ”Read 表示 其 他 内 核 读 其 他 Cache 中 
的 值 ，Remote Write 表示 其 他 内 核 写 其 他 Cache 中 的 值 ， 箭 头 表示 本 
Cache line 状 态 的 迁移 ， 环 形 箭头 表示 状态 不 变 。 

当 内 核 需 要 访问 的 数据 不 在 本 Cache 中 ， 而 其 他 Cache 有 这 份 数据 的 
备份 时 ， 本 Cache 既 可 以 从 内 存 中 导入 数据 ， 也 可 以 从 其 他 Cache 中 导入 
数据 ， 不 同 的 处 理 吉 会 有 不 同 的 选择 。MESI 协 议 为 了 使 目 己 更 加 通 
用 ， 没 有 定义 这 些 细 节 ， 只 定义 了 状态 之 间 的 迁移 ， 下 面 的 描述 假设 本 
Cache 从 内 存 中 导入 数据 。 

MESI 状 态 之 则 的 迁移 过 程 如 下 : 

当前 状态 事件 行为 | 下 一 个 状态 
I(Invalid) Local Read 如 果 其 他 Cache 没有 这 份 数 据 ， 本 Cache 从 内 存 中 EE/S 

取 数 据 ，Cache line 状态 变 成 E; 

如 果 其 他 Cache 有 这 份 数据 ， 且 状态 为 M， 则 将 数 

据 更 新 到 内 存 ， 本 Cache 再 从 内 存 中 取 数 据 ， 两 个 

Cache 的 Cache line 状态 都 变 成 $; 


如 果 其 他 Cache 有 这 份 数据 ， 且 状态 为 S 或 者 E， 
本 Cache 从 内 存 中 取 数 据 , 这 些 Cache 的 Cache line 











状态 都 变 成 S 

Local Write 从 内 存 中 取 数 据 ， 在 Cache 中 修改 ， 状 态 变 成 M; M 
如 果 其 他 Cache 有 这 份 数据 ， 且 状态 为 M， 则 要 先 
将 数据 更 新 到 内 存 ; 


如 果 其 他 Cache 有 这 份 数据 , 则 其 他 Cache 的 Cache 
line 状态 变 成 1 








当前 状态 事件 行为 下 一 个 状态 
I(Invalid) Remote Read 既然 是 Invalid， 别 的 核 的 操作 与 它 无关 I 过 

Remote Write 既然 是 Invalid， 别 的 核 的 操作 与 它 无 关 | 
E(Exciusive) Local Read 从 Cache 中 取 数 据 ， 状 态 不 变 E 

Local Write 修改 Cache 中 的 数据 ， 状 态 变 成 M M 

Remote Read 数据 和 其 他 核 共 用 ， 状 态 变 成 了 S S 

Remote Write 数据 被 恬 改 ， 本 Cache line 不 能 再 使 用 ， 状 态 变 成 1 1 
S(Shared) Local Read 从 Cache 中 取 数 据 ， 状 态 不 变 S 

Local Write 修改 Cache 中 的 数据 ， 状 态 变 成 M， 其 他 核 共享 的 M 

Cache line 状态 变 成 ] 

Remote Read 状态 不 变 S 

Remote Write 数据 被 修改 ， 本 Cache line 不 能 再 使 用 ， 状 态 变 成 1 1 
M(Modified) Local Read 从 Cache 中 取 数 据 ， 状 态 不 变 M 

Local Write 修改 Cache 中 的 数据 ， 状 态 不 变 M 

Remote Read 这 行 数据 被 写 到 内 存 中 ， 使 其 他 核能 使 用 到 最 新 的 S 


Remote Write 


数据 ， 状 态 变 成 S 
这 行 数 据 被 写 到 内 存 中 ， 使 其 他 核能 使 用 到 最 新 的 
数据 ， 由 于 其 它 核 会 修改 这 行 数据 ， 状 态 变 成 1 


一 


AMD 的 Opteron 处 理 器 使 用 从 MESI 中 演化 出 的 MOESI 协 议 ， 


O (Owned) 是 MESI 中 S 和 M 的 一 个 合体 ， 表 示 本 Cache line 被 修改 ， 和 
内 存 中 的 数据 不 一 致 ， 不 过 其 他 的 核 可 以 有 这 份 数据 的 复制 ， 状 态 为 
So 

Intel 的 core i7 处 理 器 使 用 从 MESI 中 演化 出 的 MESIF 协 议 ， 
F (Forward) 从 Share 中 演化 而 来 ， 一 个 Cache line 如 果 是 Forward 状 态 ， 
它 可 以 把 数据 直接 传 给 其 他 内 核 的 Cache， 而 Share 则 不 能 。 

前 面 的 这 些 协议 ， 由 于 每 个 Cache 都 需要 监听 〈snoop) 总 线 上 的 所 
有 操作 ， 因 此 也 称 为 监听 〈snoop) 协议 ， 监 听 协 议 由 于 实现 简单 ， 被 
大 多 数 处 理 器 使用。 不 过 监听 协议 的 沟通 成 本 很 高 ， 还 有 一 种 协议 叫 目 
录 协 议 ， 它 采用 集中 管理 的 方式 ， 将 Cache 共 享 的 信息 集中 在 一 起 ， 类 
似 于 一 个 目录 ， 只 有 共享 数据 的 Cache ”line 才 会 交互 数据 ， 减 少 了 沟通 
成 本 。 








5.4 片 内 可 寻 址 存储 器 一 软件 管理 的 Cache 


在 x86 处 理 嚣 中， 处理 器 内 部 的 存储 器 全 部 作为 Cache 使 用 ， 不 纳入 
存储 空间 的 编 址 ，Cache 对 程序 员 是 透明 的 ，Cache 完 全 由 处 理 霹 硬件 来 
管理 ， 程 序 员 不 需要 关心 Cache， 编 程 也 简单 。 

而 在 DSP 等 性 能 要 求 很 高 的 散 入 式 处 理 嚣 中， 处 理 器 内 部 的 存储 器 
一 部 分 作为 Cache; 另 一 部 分 作为 可 寻 址 存储 器 ， 程 序 员 可 直接 访问 这 


部 分 空间 。 


为 什么 在 处 理 器 内 部 需要 可 寻 址 存储 器 呢 ? 

因为 Cache miss 是 不 可 避免 的 ， 当 发 生 Cache miss 时 ， 处 理 器 要 花 大 
量 的 时 间 等 待 数 据 ， 而 可 寻 址 存储 器 可 以 由 程序 员 自 己 管理 ， 也 就 可 以 
有 效 地 控制 数据 miss。 








处 理 器 内 部 存储 器 


Cache 可 寻 址 存储 器 


(对 程序 员 不 可 见 ) ( 对 程序 员 可 见 ) 





DSP 瞩 内 的 SRAM 包 含 Cache 和 可 寻 址 存储 器 

有 3 个 原因 会 导致 Cache miss: 

Compulsory《〈 必 须 的 ) miss， 第 一 次 访问 程序 或 数据 时 ， 这 些 数 据 
没有 在 Cache 中 ， 于 是 就 导致 了 Cache miss。 这 种 Cache miss 是 不 可 避免 
的 ， 因 此 叫做 Compulsory miss 。 

Capacity (容量 ) miss，Cache 容 量 毕竟 有 限 ， 当 Cache 已 满 ， 新 数 
据 又 要 进来 ， 就 必须 重新 搬移 ， 这 就 叫做 Capacity miss。 





Conflict( 冲 突 〉， miss， 有 时 候 Cache 虽 然 还 有 空闲 空间 ， 但 是 这 个 
地 址 对 应 的 Cache line 已 经 被 使 用 了 ， 也 会 导致 Cache miss， 这 就 叫做 
Conflict miss 。 

Cache 要 等 到 CPU 访问 数据 时 ， 才 从 内 存 中 将 数据 取 进 来 ， 而 此 时 
CPU 只 能 等 等。 如 果 处 理 器 内 部 有 了 可 寻 址 存储 器 ， 就 可 以 通过 软件 控 
制 DMA (Direct Memory Access) 将 以 后 需要 的 数据 提前 搬 到 处 理 器 内 
部 ， 这 就 省 去 了 不 少 CPU 的 等 等 时 间 。DMA 是 处 理 器 中 专业 负 贡 数据 
搬移 的 模块 。 





时 间 





CPU 需要 访问 数组 x 


Cache 和 
机 制 CPU 运行 CPU 运行 


(Sh, 
人 

~ 
“ed 





CPU 需要 访问 数组 x 


DMA RPR 二 汪 
机 制 CPU 运行 CPU 运行 
DMA 搬 移 x 


Cache 和 和 DMA 对 比 


在 上 面 的 这 个 例子 中 ， 程 序 知道 CPU 什么 时 候 要 访问 数组 x， 于 是 
通过 控制 DMA 提 前 搬移 数据 ， 而 Cache 不 知道 ， 它 没 法 提前 搬 。 因 此 使 
用 DMA 的 方式 ， 程 序 总 的 执行 时 间 要 比 使 用 Cache 的 方式 少 。 

DMA 的 任务 就 是 快速 的 搬移 数据 ， 而 数据 的 组 织 形式 干 差 万 别 。 
例如 ， 在 多 媒体 领域 ， 语 音 数据 通常 采用 一 维 数组 的 形式 存储 ， 图 像 数 
据 采 用 二 维 数组 来 存储 ， 彩 色 网 像 包含 多 个 分 量 〈 如 RGB、YCbCr 
等 ) ， 各 个 分 量 又 独立 存储 。DSP 的 DMA 也 相应 提供 了 1D、2D、3D 的 


数据 搬移 方式 ， 如 下 图 所 示 : 








DMA 的 1D，2D，3D 操 作 


1D 方 式 搬运 一 块 连续 地 址 的 空间 ，2D 方 式 可 看 作 由 多 个 规则 的 1D 
方式 组 合 而 成 ， 完 成 一 个 1D 操 作 后 ， 地 址 加 上 一 个 固定 俩 移 ， 继 续 下 





一 个 1D 操 作 ，3D 搬 移 也 就 是 多 个 规则 的 2D 搬 移 。 

使 用 DMA 程 序 的 效率 较 高 ， 不 过 程序 员 不 仅 要 关注 代码 和 数据 的 
逻辑 关系 ， 还 要 关心 代码 和 数据 的 存储 位 置 ， 这 对 程序 员 来 襄 ， = 
不 小 的 挑战 。 通 用 处 理 器 为 了 简化 编程 难度 ， 通 常 只 提供 Cache 这 一 种 
方式 ，DSP 对 程序 性 能 要 求 很 高 ， 通 常 提 供 了 Cache 和 DMA 的 组 合 方 
= 

现在 的 处 理 器 认识 到 传统 Cache 的 缺陷 ， 于 是 也 产生 了 很 多 Cache 预 
取 机 制 ， 如 当 CPU 在 访问 本 行 数据 时 ， 目 动 取 下 一 行 的 Cache 数 据 。 处 
理 器 也 提供 了 指令 让 程序 员 更 灵活 地 控制 Cache， 以 提高 程序 的 效率 。 











第 6 章 ”编写 局 效 代码 一 一 时 间 束 
是 生命 


编程 是 一 门 技术 ， 更 是 一 门 艺 术 。 
既 要 马 儿 跑 得 快 ， 又 要 马 儿 少 吃 理 。 








小 新 面试 受挫 记 


己 、 填 
村 


小 新 今年 计算 机 专业 大 四 了 ， 各 门 学 科 成 绩 都 很 优秀 ， 于 是 距 跤 满 志 ， 一 心 要 找 个 好 单 
位 。 这 天 ， 大 名 易 易 的 G 公 司 给 了 小 新 一 个 面试 机 会 ， 小 新 欣喜 有 若 狂 。 

面试 时 ， 面 试 官 和 小 新 先 聊 了 些 软件 行业 的 时 汉 话 题 : 设计 模式 、 敏 捷 、OpenMP 等 ， 小 
新 高 谈 阔 论 ， 面 试 官 也 点 头 附 和 ， 人 小 新 自我 感觉 展 好 。 
这 时 ， 面 试 官 拿 出 一 张 白 纸 ， 说 :“ 你 现场 写 一 段 程 序 ， 判 断 输入 的 密码 是 不 是 全 是 数 
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小 新 心 下 一 喜 ， 居然 出 这 么 简单 的 题目 ， 自 己 肯定 能 答 得 出 来 。 于 是 三 下 五 除 二 就 在 纸 上 
写 下 了 如 下 程序 : 














for(i=0; i<strilen (pswd); i++) 
{ 
if(isNum(pswd [1))) 


We 








看 了 小 新 的 程序 ， 面 试 官 眉头 紧 厨 ， 对 小 新 说 :“ 喔 ， 今 天 就 到 这 里 吧 ， 一 周 内 会 有 通 
知 。” 
小 新 在 家 耐心 等 待 ， 可 是 半 个 月 过 去 了 ， 什 么 消息 也 没有 ， 小 新 才 知 道 自己 没有 通过 。 小 
新 很 纳 问 ， 于 是 找到 了 在 G 公 司 工 作 多 年 的 师兄 大 雄 请 教 原因 ， 大 雄 知 道 了 小 新 写 的 程序 后 ， 
哈哈 大 笑 ， 对 小 新 说 : 
“这 样 的 代码 要 是 写 到 产品 里 面 ， 不 知 要 浪费 多 少 台 服务 器 ， 别 人 
当然 不 会 要 了 。 你 就 不 能 把 strlen (pswd) 提 到 for 循 环 外 面 吗 ? ” 







































































21 世 纪 什 么 最 重要 ? 效率 ! 


编程 是 一 门 技术 ， 更 是 一 门 艺术 
要 马 儿 跑 得 快 ， 又 要 马 儿 少 吃 草 


6.1.1 高效 代 码 的 意义 一 时 间 就 是 生命 ， 时 间 惑 是 金钱 


6.1 软件 效率 
































型 








美剧 《24 小 时 》 常 常 有 这 样 的 例子 ， 情 报 部 门 找到 一 张 犯 罪 分 子 的 
照片 ， 然 后 使 用 人 脸 识 别 软 件 在 数据 库 中 进行 搜索 ， 这 通常 要 几 十 分 
钟 ， 在 这 个 时 间 空 当 内 ， 杰 交 : 鲍 尔 继续 跟踪 另外 一 条 线索 。 遇 到 恐怖 
分 子 袭 击 时 ， 时 间 就 是 生命 ， 如 果 人 脸 识 别 软件 效率 更 高 ， 更 早 搜索 出 
结果 ， 就 能 更 早 地 防范 和 危险， 挽救 生命 。 

服务 器 软件 非常 注重 代码 效率 ， 更 高 效 的 软件 ， 意 味 着 更 短 的 客户 
响应 时 间 ， 更 少 的 服务 器 成 本 。 对 于 很 多 互联 网 公司 ， 服 务 器 成 本 占 了 
公司 总 成 本 相当 大 一 部 分 比例 ， 它 们 的 核心 业务 代码 都 是 经 过 严格 优化 
的 ， 使 得 每 台 服 务 器 能 服务 更 多 的 用 户 。 

垦 入 式 软件 也 非常 注重 代码 效率 ， 因 为 柑 入 式 领 域 对 成 本 要 求 非常 
苛刻 ， 老 板 都 想 拿 着 486 的 CPU 做 出 Vista 的 效果 ， 这 就 特别 需要 代码 效 
率 奇 高 。 在 战场 上 ， 我 们 最 喜欢 以 少 胜 多 的 英雄 ， 写 软件 ， 我 们 也 要 有 
拿 着 486 当 奔 4 使 的 霸气 。 

PC 软件 在 代码 效率 上 要 相对 逊色 很 多 ， 反 正 PC 性 能 也 强 ， 很 多 程 
序 员 并 不 重视 代码 的 效率 。 不 过 也 有 不 少 软件 将 小 巧 、 快 速 作为 自己 软 
件 的 卖点 ， 如 QQ 影音 、 电 驴 等 。 从 消费 者 的 角度 来 说 ， 在 功能 一 样 的 
情况 下 ， 自 然 会 选择 小 巧 、 快 速 的 软件 。 

作为 程序 员 ， 我 们 应 该 勤俭 编码 ， 让 代码 使 用 更 少 的 CPU 运算 量 ， 
做 更 多 的 活 。 


6.1.2 ”代码 剖析 一 一 没有 调查 ， 束 没有 发 言 权 















































假 与 马 者 ， 非 利 足 也， 而 致 千里 ; 假 舟 栓 者 ， 
非 能 水 也 ， 而 绝 江 河 。 君 子 生 非 异 也 ， 善 假 于 物 也 。 


通常 我 们 在 编写 程序 时 ， 第 一 版 总 是 为 了 实现 功能 ， 不 太 注 重 代码 
效率 ， 第 二 版 才 会 进行 代码 的 优化 。 我 们 读 了 这 么 多 年 的 书 ， 也 都 明白 
了 一 个 道理 : 100 分 的 总 分 ， 从 60 分 提升 到 80 分 ， 不 是 太 难 ， 而 从 80 分 
提升 到 100 分 ， 那 就 很 难 了 。 成 绩 和 努力 程度 常常 呈现 出 如 下 曲线 ， 越 
到 后 来 ， 收 获 就 越 小 了 。 


a 
成 绩 
































成 绩 和 努力 程度 的 关系 曲线 

软件 开发 也 是 同样 一 个 道理 ， 项 目 开 发 都 受到 质量 、 成 本 、 进 度 三 
要 系 的 制约 ， 尤 其 是 在 战机 稍 纵 即 挝 的 商界 ， 时 间 更 是 宝贵 ， 软 件 性 能 
优化 不 可 能 无 休止 的 进行 下 去 ， 达 到 要 求 后 就 要 收 山 ， 因 此 好 钢 必须 要 
用 在 刀 为 上 ， 我 们 得 先知 道 哪 些 代 码 值得 优化 ， 哪 些 代码 不 值得 优化 。 

毛 主 太 教导 我 们 说 ， 没 有 调查 就 没有 及 言 权 ， 调 查 研 究 就 像 十 月 怀 
胎 ， 解 决 问 题 就 像 一 间 分 娩 。 软 件 性 能 优化 的 第 一 步 就 是 调查 程序 各 个 
模块 (或 沙 数 ) 的 执行 时 间 ， 检 验 目 己 的 代码 是 人 否 高 效 。 

美剧 《 犯 徘 心理 》 中 第 出 现 一 个 词 : “profile”， 意 思 是 剂 析 犯罪 分 
子 的 心理 ， 这 个 词 用 在 软件 开发 中 ， 就 叫 软件 性 能 训 析 。 性 能 剂 析 工 具 
能 分 析出 每 个 函数 (有 的 工具 能 分 析 到 每 个 循环 〉 的 执行 时 间 。 























我 们 在 做 软件 开发 时 ， 可 以 使 用 的 性 能 训 析 软件 有 很 多 ， 如 IBM 的 
Rational Quantify、Intel 的 VTune、AMD 的 CodeAnalyst，DSP 的 软件 集成 
开发 环境 中 也 自 珊 有 这 种 工具 。 
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VTune 


在 没有 工具 时 ， 我 们 也 可 以 手工 编写 代码 来 实现 profile 的 功能 
理 右 上 都 有 计数 器 ， 每 个 时 钟 周期 累加 一 次 ， 操 作 系统 会 提供 访问 计数 
器 的 函数 ， 通 过 在 一 段 代码 前 后 访问 计数 右 ， 得 到 它们 的 差 值 ， 再 配合 
处 理 需 的 工作 频率 ， 束 可 以 知道 这 段 代码 执行 的 时 间 了 。 知 道 了 各 个 模 


块 的 执行 时 间 之 后 ， 就 能 优先 优化 占用 时 间 长 的 模块 。 
光 说 不 练 假 把 式 ， 真 刀 真 枪 真 功夫 ， 从 下 市 开始 ， 我 们 就 来 介绍 怎 
么 编写 高 效 的 代码 。 





6.2 减少 指令 数 一 一 惑 俭 持家 


程序 是 由 一 条 一 条 的 指令 组 成 ， 要 执行 的 程序 指令 数 减 少 了 ， 目 然 
执行 时 间 也 残 减少 了 。 在 微 架 构 章节 中 ， 我 们 介绍 了 处 理 占 减少 指令 数 
的 技术 ， 其 实 ， 减少 指令 数 的 工作 ， 更 应 该 是 程序 员 上 自己 的 贡 任 。 


6.2.1 使 用 更 快 的 算法 一 一 算法 ， 程 序 设 计 的 灵魂 


数学 家 高 斯 小 学 的 时 候 就 知道 了 用 更 简洁 的 算法 来 减少 计算 量 。 高 
斯 的 老师 出 了 道 数学 题 : 1 十 2 十 3...….. 十 100=? 在 别 的 同学 还 在 用 一 个 
一 个 加 法 苗 算 的 时 候 ， 高 斯 很 快 就 写 出 了 答案 5050， 他 的 方法 是 用 
《100 十 1) x100/2 代 替 了 99 个 加 法 。 

算法 的 优化 ， 能 明显 的 减少 执行 程序 所 需要 的 指令 数 ， 也 即 运算 
量 。 比 较 有 名 的 快速 算法 包括 : FFT 算 法 〈 快 速 傅 里 时 变换 ) 、 快 速 排 
序 算法 等 。 在 数据 结构 与 算法 中 ， 时 间 复 杂 度 O 用 来 描述 算法 所 需要 的 
运算 量 ， 对 n 个 元 素 进 行 排序 ， 冒 泡 排 序 算 法 的 时 间 复 杂 度 为 
O (nxn) ， 快 速 排序 算法 的 时 间 复 杂 度 为 O(nxlog n) 。 当 n 较 大 时 ， 
快速 排序 算法 所 需要 的 指令 数 就 远 远 少 于 冒 泡 排 序 算法 。 


















































算法 领域 的 牛人 们 

Niklaus ”Wirth 一 一 Pascal 语 言 之 父 ， 他 提出 了 著名 公式 “算法 十 数据 结构 二 程序 ”?"。 当 然 ， 
算法 不 仅仅 可 以 用 在 程序 上 ， 硬 件 也 一 样 用 ， 处 理 器 上 也 包含 了 不 少 算法 ， 如 分 文 预 测算 法 、 
乱 序 调度 算法 等 。 

James Cooley 一 一 FFT 《快速 傅 里 叶 变 换 〉 的 发 明 人 ，FFT 是 信号 处 理 领域 使 用 最 为 广泛 的 















































算法 ， 语 音 处 理 、 无 线 通 信和 都 会 使 用 到 它 ， 图 像 、 视 频 也 会 使 用 到 它 的 变种 。 
Tony Hoare 快速 排序 算法 (Quick Sort) 的 发 明 人 ， 这 个 算法 是 当前 世界 上 使 用 最 广 
泛 有 的 宇 法 之 
Edsger Wybe Dijkstra 图 论 中 最 短路 径 算 法 的 发 明 人 ， 这 个 算法 也 称 为 Dijkstra 算 法 。 
Don EE. Knuth 一 一 车 有 经 典 著 作 《 计 算 机 程序 设计 艺术 》， 该 书 被 誉 为 算法 中 的 圣经 。 


6.2.2 ”选用 合适 的 指令 一 一 合适 的 人 做 合适 的 事 


处 理 器 除了 一 些 常用 的 加 法 、 移 位 、 乘 法 等 指令 外 ， 还 有 一 些 完 
复杂 功能 的 指令 ， 例 如 ，DSP 中 的 乘 累 加 指令 、 求 绝对 值 指令 ，x86 中 
J 在 用 局 级 语言 编程 时 ， 编 译 占 常常 不 会 使 用 到 这 些 指 

， 而 是 用 多 条 简单 的 指令 去 实现 它们 ， 这 时 就 需要 程序 员 自 己 去 使 用 
它们 

使 用 这 些 复 杂 指 令 ， 最 直接 的 方式 当然 是 写 汇编 语言 ， 不 过 汇编 语 
言 编 程 难度 太 大 ， 还 好 ， 编 译 器 提供 了 一 种 方便 使 用 汇编 指令 的 方式 : 
Intrinsic function。 例 如 ，SSE3 中 的 指令 addsubps， 它 对 应 的 Intrinsic 
function 为 mm_addsub_ps，Intrinsic ”function 的 使 用 方式 和 普通 函数 一 
样 : 

































































W=_mm _addsub_ps (u, Vv); 

虽然 它 看 起 来 像 个 函数 调用 ， 不 过 它 不 是 真正 的 函数 ， 它 会 被 编译 
右 翻 译 成 对 应 的 汇编 指令 。u 和 v 也 不 是 函数 的 参数 ，u 是 指令 addsubps 
的 第 一 个 操作 数 ，V 是 指令 addsubps 的 第 二 个 操作 数 。 数 据 类 型 是 
128bit。 

手工 优化 过 的 纯 汇 编 ， 性 能 当然 是 最 高 的 ， 不 过 也 是 最 不 易 编程 和 
可 移植 性 最 差 的 ， 使 用 标准 C 语 言 编程 ， 易 编程 ， 可 移植 性 高 ， 不 过 性 
能 也 差 ，Intrinsic function 是 介 于 它们 中 间 的 一 种 产物 。 对 于 调用 次 数 非 























常 多 、 非 常 影响 性 能 的 模块 ， 可 以 使 用 汇编 对 其 优化 ， 对 于 一 般 影 响 程 
序 的 模块 ， 可 以 使 用 Intrinsic function 对 其 优化 ， 其 他 模块 ， 使 用 标准 C 
印 可 。 


性 能 





ninsic function 








= 易 编 程 性 /可 移植 性 
汇编 、Intrinsic function、 标 准 C 在 性 能 和 可 移植 性 关系 


6.2.3 ”降低 数据 精度 一 一 比特 也 要 省 着 用 


我 们 知道 ， 小 数 点 后 面 的 位 数 越 多 ， 数 据 越 精确 。 例 如 ，100.11 就 
比 100.1 精 确 ， 而 越 精 确 的 数据 ， 所 主要 的 bit 数 也 越 多 。 浮 点 数 有 单 精 
度 和 双 精 度 两 种 格式 ， 单 精度 浮 点 数 占 32 bit， 双 精度 浮 点 数 占 64 bit， 
处 理 双 精 度 的 浮 点 数 上 自然 要 比 单 精 度 浮 点 数 慢 。 

在 C 语 言 中 ，fabsf (〉 是 计算 单 精 度 浮 点 数 绝 对 值 的 函数 ， 
fabs() 是 计算 双 精 度 浮 点 数 绝对 值 的 函数 ， 所 以 ， 如 果 数 据 是 单 精度 
浮 点 数 ， 使 用 fabsf() 就 比 fabs《〈) 快 ， 很 多 程序 员 并 没有 注意 到 这 个 
区 别 。 如 宋 一 个 数据 用 单 精度 能 表示 ， 就 不 需要 使 用 双 精 度 了 。 


6.2.4 减少 函数 调用 一 不 要 老 打 断 我 


函数 是 结构 化 程序 设计 的 产物 ， 它 使 代码 更 加 模块 化 ， 厢 合 性 更 
低 ， 重 用 性 更 高 。 不 过 ， 函 数 调用 会 和 市 来 额外 的 开销 ， 除 了 引起 跳 转 
外 ， 还 会 产生 额外 的 指令 。 

人 都 有 这 样 的 经 验 ， 做 一 件 事情 时 ， 如 果 被 人 打 断 ， 重 新 再 回来 做 


























这 件 事 情 ， 就 需要 一 段 恢 复 时 间 ， 如 宁 老 是 被 打 断 ， 那 事情 束 没 法 做 

了 。 函 数 调用 也 是 这 样 ， 要 进行 参数 奈 栈 出 栈 、 寄 存 恬 保存 、 指 令 跳 转 
等 。 多 个 步骤 如 果 程 序 的 性 能 要 求 较 高 ， 就 可 以 将 一 些小 的 函数 直接 转 
换 成 代码 。 


1. 将 小 函数 直接 写成 语句 
a i eA an 数 ， 可 以 直接 用 函数 的 内 容 丛 换 函 数 调 用 。 


int nt a,r int b) 


{ 





roturn a“<b? ar bry 
) 
c= minl(la, b); 





// 直 接 写 为 
c = a<b? a: b; 
2. 将 小 函数 写成 宏 


如 打 调 用 的 地 方 很 多 ， 用 函数 调用 的 方式 会 显得 代码 简洁 。 一 种 即 
保持 代码 简洁 又 能 减少 函数 调用 的 做 法 是 将 函数 体 声明 为 宏 。 


#define mint{ta,b) ((a}<(b)) ? (al : ({b) 





C = minl(a,b);? 


3. 将 函数 声明 为 内 联 函 数 


如 末 嫌 改 为 宏 的 方法 太 有 斥 烦 ， 还 有 一 种 简单 的 方法 ， 残 是 将 函数 声 
明 为 inline， 编 译 占 会 目 动 用 函数 体 窗 盖 函 数 调 用 。 


inline int min(int a, int b) 
{ 

return a<b? a: b; 
} 


C = min{(a, b); 
/1 编译 器 会 将 代码 优化 成 


c= a<b? a; b; 








我 们 总 是 在 走 ， 却 忘 了 停留 


时 间 和 空间 的 关系 ， 是 霍金 这 种 智商 的 人 要 研究 的 东西 ， 我 们 只 需 
要 知道 ， 在 编程 时 ， 空 间 是 可 以 换 时 间 的 ， 时 间 也 是 可 以 换 空 间 的 。 

李开复 在 他 的 自传 《世界 因 你 不 同 》 中 描述 了 他 小 时 候 在 美国 学 校 
里 的 一 个 故事 ， 老 师 出 了 道 题 : “ 谁 知 道 1/7 等 于 多 少 ? ”小 开 复 马 上 大 声 
回答 : “0.142857”， 老 师 和 同学 们 都 惊 呼 开 复 是 个 天 才 ， 其 实事 实情 况 
是 ， 开 复 以 前 在 台湾 时 就 记 下 了 这 个 答案 。 这 就 是 一 个 典型 的 以 空间 
(存储 ) 换 时 间 的 例子 。 

再 举 一 个 编程 的 例子 : 打印 0 一 40 的 Fibonacci 序 列 。 

Fibonacci 序 列 : 

F (n) =1, n 二 0 或 1 

F (n) =F (n—1) 十 F (n—2) n>1 

代码 如 下 : 


6.2.5 ”空间 换 时 间 





一 一 一 一 一 
int arr[40]; 


int fl(int n) 


int results; 

















if{n <= 1) 
{ 
result = 1; 
int ft{int n) 
{ else 
if (n<=1) { 
| { result =arr[n-1] +arrin-2]; 
return 工 ; } 
} arr[n] = result; 
return f(n-1) + f{n-2); return result; 
} 
int maint() int maln() 
{ { 
int result; int result; 
A 全 int 
for (i=0; i < 407 主 ++) for(i=0; i < 40;»; ++) 
{ { 
result = f(i); result = f({i);? 
printf ("%d\n", result); printf ("sd\n", result); 
} 
} | 











使 用 左边 的 代码 ， 在 我 的 电脑 上 需要 耗费 21 秒 ， 而 如 果 使 用 右边 的 
代码 ， 则 耗 时 不 到 1 秒 。 右 边 的 代码 使 用 了 一 个 数组 ， 将 F 的 值 绥 存 起 
来 ， 这 样 计算 F (n) 二 F (n 一 1) 十 F Cn 一 2) 时 就 不 需要 递归 执行 ， 直 
接 从 数组 中 取 值 相 加 即 可 。 可 见 ， 空 间 换 时 间 的 效果 是 多 么 的 明显 。 
Fibonacci 其 人 


Fibonacci 是 在 越狱 中 指证 John ”Abruzzi 的 污点 证 人 ， 后 被 Michael 发 现 藏 匿 地址 的 那个 人 
四? 





























非 也 ， 此 Fibonacci 是 意大利 12 世 纪 著 名 数学 家 Leonardo Pisano Fibonacci。 在 他 的 一 本 书 
中 ， 他 提出 了 这 么 一 个 有 趣 的 问题 :“ 假 定 一 对 兔子 在 它们 出 生 整 整 两 个 月 以 后 可 以 生 一 对 小 
兔子 ， 其 后 每 隔 一 个 月 又 可 以 再 生 一 对 小 兔子 。 假 定 现在 一 个 笼子 里 有 一 对 刚 生 下 来 的 小 免 
子 ， 请 问 一 年 以 后 笼子 里 应 该 有 几 对 兔子 ? ”这 个 问题 的 数学 建 模 ， 就 是 FibonaCci 序 列 。 

在 商业 上 最 成 功 的 空间 换 时 间 的 例子 是 Google 和 百度 的 搜索 引擎 算 
法 ， 当 我 们 提交 一 个 搜索 请 求 时 ， 搜 索引 擎 并 不 是 现场 给 我 们 搜索 ， 要 
























































在 这 么 短 的 时 间 内 搜索 全 球 数 不 尽 的 网 页 是 不 可 能 的 ， 它 只 是 将 已 经 搜 





索 好 的 网 页 呈现 给 我 们 。 
6.2.6 减少 过 保护 一 一 打 不 破 的 部 门 墙 


很 多 人 部 有 这 样 的 认识 : 在 大 型 软件 项 目 中 ， 做 正事 的 代码 量 只 占 
一 小 部 分 ， 大 部 分 的 代码 被 用 于 防止 各 种 异常 及 进行 相应 的 错误 处 理 。 

对 函数 输入 参数 进行 校 验 是 编程 必 不 可 少 的 工作 ， 在 大 型 软件 开发 
中 ， 函 数 的 调用 和 函数 的 实现 常常 是 不 同 的 人 写 的 ， 有 时 因为 沟通 不 
畅 ， 函 数 内 部 会 对 参数 进行 校 验 ， 函 数 调 用 处 义 对 参数 进行 了 校 验 ， 这 
样 就 多 余 了 ， 当 程序 性 能 实在 是 吃紧 时 ， 可 以 去 掉 这 些 过 保护 。 在 大 型 
项 目 开 有 发 中 ， 分 工时 可 以 明确 划分 各 目的 任务 ， 避 免 实现 一 些 元 余 功 


会 忆 
月 上。 























6.3 ”减少 处 理 器 不 擅长 的 操作 
不 喜欢 的 事情 


尺 有 所 短 ， 寸 有 所 长 ， 每 种 处 理 器 都 有 自己 擅长 与 不 擅长 的 操作 。 

在 与 处 理 喜 配套 发 布 的 指令 集 手册 中 ， 都 会 描述 每 个 指令 的 执行 周 
期 ， 单 周期 指令 是 处 理 器 最 喜欢 的 ， 不 仅 执行 时 间 短 ， 而 且 利于 流水 线 
执行 。 加 、 减 、 逻 辑 运 算 等 ， 凋 凋 是 单 周期 指令 ， 乘 、 除 、 分 文 指令 、 
浮 点 指令 、 内 存 存 取 操 作 等 ， 常 常 需 要 较 多 的 时 钟 周期 。 我 们 在 编程 
时 ， 残 应 该 少 使 用 执行 时 间 长 的 指令 。 

Q: 这 些 复杂 指令 都 有 它 的 用 途 ， 说 少 用 就 能 少 用 的 吗 ? 

A: 机 香 豆 的 ' 疝 : 字 都 有 4 种 写法 ， 更 何况 是 号 称 艺术 的 软件 ， 很 多 
时 候 ， 我 们 只 需要 稍微 变通 一 下 ， 就 可 以 化 腐朽 为 神奇 。 正 所 谓 ， 条 条 
大 路 通 罗 马 ， 不 过 代价 各 不 同 。 


个 要 通 我 做 我 
















































这 段 代 码 有 4 种 写法 





6.3.1 人 少 用 乘法 


定点 乘法 在 DSP 中 需要 两 个 Cycle， 而 移 位 操作 只 要 1 个 Cycle， 如 果 
是 一 个 数 乘 以 2 的 N 次 方 ， 束 可 以 用 移 位 代替 乘法 。 例 如 ; 
| len 二 ]en*#; Wi | | 


改 为 下 面 的 写法 更 好 : 























| len = len <<2} 


6.3.2 ” 少 用 除法 、 求 余 


除法 、 求 余 需 要 消耗 大 量 的 时 间 ， 很 多 处 理 器 没有 相应 的 指令 ， 是 
通过 软件 来 实现 的 ， 应 尽量 少 用 。 如 果 要 除 以 一 个 种 数 ， 如 下 面 的 浮 点 
除法 : 
| f= £ /5.0; mm | oe | 

可 以 将 它 转换 为 乘法 : 


bp cof 1.0/35 TFT 
f mf * cof; ; : 
6.3.3 在 精度 允许 的 条 件 下 ， 将 浮 点 数 定 点 化 


浮 点 指令 要 比 定 扣 指令 慢 很 多 ， 功 耗 也 大 很 多 ， 在 精度 要 求 不 那么 
局 的 情况 下 ， 就 可 以 将 浮 点 数 定 扣 化， 用 定点 指 令 来 代 丛 浮 点 指令 ， 一 
个 典型 的 例子 就 是 alpha 混 合 。 

《反恐 精英 》 是 很 多 人 非常 蝇 欢 的 游戏 ， 在 下 面 的 游戏 截图 中 ， 一 
个 人 扔 了 个 烟 轩 弹 ， 画 面 呈现 出 半 透 明 的 烟 筋 效果 ， 随 着 时 间 的 推移 ， 
烟 雪 逐 渐 散 去 ， 男 面 恢 复 到 原来 的 状态 。 

这 种 效果 如 果 让 美工 来 实现 ， 那 会 把 人 累 死 ， 其 实 这 种 效果 在 计算 
机 中 可 以 通过 将 两 张 图 像 进行 半 透 明 的 混合 来 实现 ， 这 就 是 图 像 的 alpha 
混合 。 混 合 后 新 图 像 每 个 像素 的 颜色 值 为 : 









































Pixel C= (int) (Pixel A 9 alpha + Pixel Be (二 -alpha ))} 






{RADIO): Fira in Bm holsy 


Cs 中 的 烟雾 弹 效果 

alpha 为 透明 度 ， 是 介 于 0 和 1 之 间 的 小 数 。 随 着 时 间 的 推移 ， 烟 雾 图 
像 的 alpha 值 越 来 越 小 ， 当 alpha 为 0 时 ， 烟 雾 效 果 就 完全 消失 。 

这 条 语句 是 一 个 浮 点 运算 ， 由 于 图 像 上 的 每 个 像素 都 要 经 过 这 样 的 
运算 ， 相 当 耗 时 ， 其 实 可 以 将 alpha 定 点 化 为 0 一 32 之 间 的 一 个 整数 值 ，0 
表示 完全 显示 B 图 像 ，32 表 示 完 全 显示 A 图 像 ， 中 间 分 32 个 等 级 ， 这 个 
代码 可 以 改 为 : 


由 于 全 部 是 定点 语句 ， 执 行 时 间 大 幅 减 少 。 


6.3.4 尽量 减少 分 文 





我 们 在 介绍 处 理 器 时 ， 已 经 知道 了 ， 现 在 的 处 理 器 都 是 流水 线 结 
构 ， 证 和 switch 等 语句 会 带 来 跳 转 ， 而 跳 转 会 打 乱 流水 线 的 正常 执行 ， 


影 啊 程序 的 执行 效率 。 
下 面 这 段 代 码 ， 把 奇数 赋 一 个 值 ， 把 偶数 赋 一 个 值 ， 可 以 用 这 种 方 
式 实现 : 








for (i=0; i<100; i++) 
{ 


if (i$2 == 0) 




















如 果 改 成 如 下 这 种 形式 就 更 好 了 : 


for(i=0; i<l100; i+=2) 

















6.3.5 ”将 最 可 能 进入 的 分 文 放 在 证 中 ， 而 不 是 else 中 


Intel 处 理 器 有 分 文 预测 单元 ， 第 一 次 进入 一 个 分 文 时 ， 由 于 没有 历 
史 信 息 可 供 参 考 ， 是 否 跳 转 取决 于 Static Predictor (静态 预测 器 〉 的 预测 
策略 ， 通 党 Static Predictor 的 策略 是 : 同 下 跳 转 预测 为 不 跳 转 ， 同 上 跳 转 
预测 为 跳 转 。 根 据 这 个 特性 ， 我 们 在 写 过 else 语 句 时 ， 也 要 注意 。 且 看 
下 面 这 段 代码 是 否 合适 ? 











4: int a 
00401028 mov 
$s int b 


0040102F mov 


6: 9 
00401036 cmp 
0040i03A jle 
es 

8: 

0040103C mov 
9: 

10: 

00401043 jmp 
hp 

Le: b = 
00401045 mov 
333 } 


Ss 








dword ptr [ebp-4], OFFFFFFFBh 


dword ptr [ebp-8],0 


dword ptr [ebp-4},0 
main+35h (00401045) 


dword ptr [ebp-8]),1 


main+3Ch (0040104c) 


dword ptr [ebp-8],2 





读者 没 必 要 管 这 么 一 大 串 汇编 语言 是 什么 意思 ， 只 需要 知道 jle 是 个 
条 件 跳 转 指令 就 可 以 了 ， 它 跳 到 地 址 00401045 处 ， 是 向 下 跳 ， 根 据 
Static ”Predictor 的 策略 ， 它 被 预测 为 不 跳 转 ， 处 理 器 会 从 0040103C 地 址 


处 开始 取 下 一 条 指令 。 


再 看 看 实际 的 执行 情况 ，a<0， 执 行 else 这 个 分 


支 ， 于 是 处 理 器 友 现 取 错 了 地 址 ， 又 要 从 头 来 过 ， 日 日 浪费 了 大 量 时 
间 。 可 见 ， 执 行 概率 高 的 分 文 ， 应 该 放 在 让 分 文中 。 








6.4 优化 内 存 访 问 一 别 让 包容 拖 葵 了 你 


从 理论 上 看 ， 每 条 运算 指令 的 执行 时 间 都 很 得 ， 大 多 数 指令 一 个 
Cycle 惑 能 完成 ， 很 多 时 候 还 能 一 个 Cycle 执行 多 条 指令 ， 可 是 实际 上 ， 
执行 指令 只 是 处 理 器 要 做 的 很 少 一 部 分 工作 ， 处 理 器 还 要 从 存储 器 中 取 
指令 ， 从 存储 器 中 将 数据 导入 到 寄存 器 中 ， 等 算 完 后 ， 再 将 结果 存 入 到 
存储 器 中 。 

处 理 器 运算 的 速度 像 免 子 赛跑 一 样 快 ， 但 是 存储 器 的 访问 速度 像 乌 
包 走 路 一 样 乙 ， 而 且 越 是 远离 内 核 的 存储 器 ， 访 问 速 度 越 慢 。 

下 面 这 个 表 是 在 几 个 x86 处 理 器 中 ， 内 核 访问 各 级 数据 Cache 和 内 存 
所 需要 的 Cycle 数 : 


























处 理 器 Level 1 data Cache Level 2 data Cache 内 存 
P3 3 8 140 
P4 2 19 350 
PM《〔〈 奔 腾 M) 3 10 80 
Core2 〈 酷 寄 ) 3 14 185 
Opteron ( 卑 龙 ) 3 13 100 


从 这 张 表 可 以 看 出 ， 从 L1 中 访问 数据 速度 还 较 快 ， 但 是 仍然 要 慢 于 
运算 的 速度 ， 从 L2 中 访问 数据 速度 还 能 将 就 ， 从 内 存 中 访问 数据 就 无 法 
处 受 了 。 我 们 应 该 尽量 减少 内 存 的 访问 ， 要 访问 ， 也 要 尽量 避 倪 Cache 
miss。 


6.4.1 少 使 用 数组 ， 少 使 用 指针 


由 于 大 块 数据 会 被 放 在 存储 器 中 ， 简 单 局 部 变量 才 会 被 放 在 寄存 此 
中 ， 因 此 应 该 尽量 少 用 数组 、 指 针 ， 多 用 简单 局 部 变量 。 
下 面 这 段 程序 ， 需 要 4 次 内 存 访问 : 








| 。 = afil * b[i]; 
|a= afil + blil; 











如 琳 改 成 如 下 的 形式 ， 就 只 有 两 次 内 存 访问 了 了 : 











6.4.2 少 用 全 局 变量 


全 局 变量 因为 要 被 多 个 模块 使 用 ， 不 会 被 放 到 寄存 嚣 中， 局 部 变量 
才能 被 放 在 寄存 器 中 ， 应 尽量 避免 使 用 全 局 变量 。 下 面 这 段 程序 : 


int XX? 


int fun a {) 
{ 
int yr 2} 
了 = Xi 
本 














最 好 改 为 : 


int XX? | 








int fun a () 
{ 
Ent yr Zz; temp;? A | 













temp = x; 
Y = temp; 
z= temp + 1; 


| 





6.4.3 一 次 多 访问 一 些 数 据 





我 们 通常 会 有 这 样 的 生活 常识 ， 要 去 很 远 的 地 方 ， 就 会 多 带 一 些 东 
西 ， 要 去 近 一 点 的 地 方 ， 就 会 少 囊 一 些 东 西 。 既 然 数 据 访 问 速度 较 慢 ， 
我 们 就 一 次 多 访问 些 数据 。 处 理 右 将 这 些 为 我 们 考虑 到 了 ， 通 常 部 提供 





了 较 大 的 数据 带宽 。 

以 C64 DSP 为 例 ， 通 常 一 条 指令 ， 一 次 对 两 个 32bit 的 数据 做 处 理 ， 
而 它 却 1 次 可 以 访问 两 个 64bit 数 据 。 

在 DSP 中 ，SIMD 指 令 和 普通 指令 共用 寄存 器 ， 有 些 数据 虽然 不 能 
用 SIMD 指 令 处 理 ， 我 们 也 可 以 一 次 将 内 存 中 的 多 个 数据 搬入 到 寄存 器 
中 ， 用 简单 指令 分 别处 理 ， 当 要 存储 时 ， 将 分 散 的 寄存 器 组 合 在 一 个 连 
续 的 位 置 ， 再 将 数据 输出 到 内 存 中 。 由 于 操作 寄存 器 远 比 操作 存储 器 
快 ， 虽 然 多 了 些 数据 的 拆 分 和 组 合 的 操作 ， 代 价 还 是 值得 的 。 


6.4.4 ”数据 对 齐 访问 


在 32 位 处 理 嚣 中， 一 个 int 型 变量 占 4 个 byte， 假 设 这 个 变量 在 内 存 
中 占据 2、3、4、5 这 4 个 byte 的 位 置 ， 如 下 图 所 示 。 











0 | 2 3 措 - 坟 5 6 


伦 yy 
A VY LO B 


数据 非 对 齐 存储 

内 核 在 访问 这 个 数据 时 ， 会 先 将 从 0 开始 的 4 个 byte 读 入 到 寄存 器 A 
中 ， 再 将 从 4 开始 的 4 个 byte 读 入 到 寄存 器 B 中 ， 再 将 有 效 的 数据 拼 成 一 
个 int 数 据 ， 放 在 寄存 器 C 中 ， 可 见 ， 这 种 访问 效率 是 多 么 的 低下 啊 ， 如 
末 变 量 i 存 储 在 从 0 开始 的 4 个 byte 处 ， 那 么 内 核 一 次 就 能 将 i 读 入 到 寄存 
器 中 ， 这 就 是 数据 对 齐 与 不 对 齐 的 访问 差别 。 对 于 2 字 市 的 变量 ， 它 的 
起 始 地 址 应 该 为 2 的 整数 倍 ， 对 于 4 字 市 的 变量 ， 它 的 起 始 地 址 应 该 为 4 
的 整数 倍 ， 对 于 8 字 节 的 变量 ， 它 的 起 始 地 址 应 该 为 8 的 整数 倍 ， 这 样 访 
问 效率 才 高 。 


























处 理 需 通常 都 会 提供 对 齐 的 数据 访问 指令 和 非 对 齐 的 数据 访问 指 
令 ， 对 齐 的 数据 访问 指令 效率 要 远 高 于 非 对 齐 的 数据 访问 指令 。 


6.4.5 ”大 数据 结构 时 的 Cache line 对 齐 


程序 会 被 Cache 到 程序 Cache 中 ， 数 据 会 被 Cache 到 数据 Cache 中 ， 从 
前 面 可 知 ， 如 果 发 生 Cache miss， 会 等 待 大 量 的 时 间 。 

Intel 处 理 器 的 Cache line 大 多 为 64 byte， 在 对 一 个 大 数据 结构 (如 一 
个 大 数组 或 大 结构 体 ) 分配 内 存 时 ， 数 据 结 构 的 起 始 地 址 最 好 为 64 byte 
的 整数 倍 ， 这 样 Cache miss 的 次 数 最 少 。 例 如 ， 一 个 64 byte 的 数组 ， 如 
果 起 始 地 址 不 是 64 的 整数 倍 ， 则 它 会 占据 两 个 Cache ”line， 访 问 时 产生 
两 次 cache ”miss， 如 果 起 始 地 址 是 64 的 整数 倍 ， 则 只 会 占据 1 个 Cache 
line， 访 问 时 只 产生 1 次 Cache miss。 

在 Windows 平 台 上 ， 可 以 使 用 下 面 的 语句 来 指定 对 齐 ， 在 这 条 指令 
中 ， 将 数组 指定 为 64 byte 对 齐 。 


[ 
declspec(align(64)) int BigArray[1024]; mu | 

















6.4.6 程序、 数据 访问 符合 Cache 的 时 间 、 空 间 局 部 性 


Cache 正 是 利用 了 程序 、 数 据 访问 时 的 时 间 局 部 性 和 空间 局 部 性 ， 
为 了 使 Cache 的 访问 效率 最 高 ， 程 序 和 数据 的 组 织 ， 也 应 该 要 符合 这 两 
个 特性 。 最 典型 的 例子 就 是 二 维 数组 的 访问 ， 下 面 就 是 一 个 二 维 数组 : 

















人 





a[lijli+1] 





| ab 卓 


| afi#+1][0] 




















二 维 数组 
如 果 af[i[j] 在 Cache 中 ， 那 么 afi]0j 十 刁 就 很 可 能 也 在 Cache 中 ， 但 是 
a[fi 十 1] 卜 则 不 一 定 。 于 是 代码 这 样 写 就 不 太 好 : 








for (j=0; j<500; j++) 


for(i=0; i<500; i++) 
{ 
sum += al{[i] [j]}】; 


} 





应 该 采用 如 下 的 写法 ，Cache 的 效率 才 高 : 








for (i=0; i<500; i++) 
{ 
for (j=0; j<500; j++) 
{ 
sum += al[i] [j}); 
} 





再 来 看 男 一 个 例子 ， 在 下 面 的 这 段 代码 中 : 


int a[l4], b[4], i; 
for (EE = 0; i < 4; i++) 
{ 
b[li] = Func(af[lil]);? 
} 

















如 果 a 和 b 数 组 存放 在 不 同 的 Cache line 中 ， 一 开始 访问 a 会 产生 一 次 
Cache miss， 一 开始 访问 b 也 会 产生 一 次 Cache miss， 如 果 a 和 b 数 组 存放 
在 一 个 Cache line 之 中 ， 则 只 会 产生 一 次 Cache miss。 

在 一 起 使 用 的 数据 放 在 一 起 能 减少 数据 的 Cache miss， 在 一 起 使 用 
的 函数 放 在 一 起 能 减少 程序 的 Cache miss。 

程序 的 组 织 也 要 符合 Cache 局 部 性 原则 。 例 如 ， 一 个 程序 大 小 为 
40K Bytes， 经 常 使 用 的 代码 占据 30K， 很 少 使 用 的 代码 (如 初始 化 、 异 
常 处 理 等 ) 占据 10K， 指 令 Cache 为 32K Bytes， 这 段 程序 是 无 法 完全 放 





在 Cache 中 的 ， 我 们 可 以 将 经 党 执行 的 代码 放 在 一 起 ， 将 很 少 使 用 的 代 
码 放 在 一 起 。 这 样 经 癌 使 用 的 代码 就 能 完全 进入 Cache 中 ， 减 少 了 Cache 
miss。 

有 些 较 好 的 编译 器 能 分 析 函 数 的 调用 关系 ， 并 合理 的 安排 水 数 的 存 
储 位 置 ， 以 提高 指令 Cache 的 命中 效率 。 


6.4.7 ”多 线程 编程 时 ， 避 免 false sharing 











在 多 核 上 运行 多 线程 是 提高 程序 运行 效率 的 重要 手段 。 多 核 间 同步 
常常 需要 共享 (Share) 一 些 变量 ， 而 如 果 线 程 间 从 算法 上 并 不 需要 共享 
变量 ， 但 是 在 实际 执行 时 ， 它 们 所 用 的 数据 处 于 同一 个 Cache ”line 中 ， 
就 会 引起 Cache 冲 突 ， 严 重 降 低 程 序 效 紊 ， 这 种 现象 叫做 false 
sharing( 假 共享 )。 

在 下 面 的 这 个 例子 中 ， 某 程序 员 开 辟 一 个 数组 Arr， 将 Arr[0] 给 线程 
0 用 ，Arr[1] 给 线程 1 用 ， 线 程 0 在 内 核 0 中 执行 ， 线 程 1 在 内 核 1 中 执行 ， 
数组 Arr 既 被 Cache 到 内 核 0 中 ， 又 被 Cache 到 内 核 1 中 ， 如 果 线 程 0 修 改 了 
Ar[0] 的 内 容 ， 那 么 Cache 一 致 性 协议 就 会 使 内 核 1 的 这 行 Cache 无 效 ， 层 
致 线程 1 发 生 Cache miss， 同 样 的 过 程 也 会 发 生 在 线程 1 修改 Arr[1]。 


core 0 core 1 
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L2 cache 


false sharing 示 例 
false sharing 会 导致 大 量 的 Cache 冲 突 ， 应 该 尽量 避免 。 解 决 false 
sharing 的 办 法 就 是 将 多 个 线程 访问 的 数据 放置 在 不 同 的 Cache line 中 。 
false sharing 是 数据 伪 共 享 ， 而 多 线程 编程 不 可 避免 的 要 遇 到 数据 共 








吾 ， 编 程 时 应 该 注意 如 下 原则 : 
(1) 尽量 少 共有 至 数据 。 
(2) 尽量 少 修改 数据 。 
(3) 尽量 少 频繁 的 修改 数据 。 


6.4.8 ”自己 管理 内 存 动态 分 配 


编程 时 通 利 会 遇 到 链表 这 种 数据 结构 ， 下 面 是 一 个 单 问 链表 的 例 
子 。 


aa 
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单 器 链表 的 逻辑 结构 

上 面 这 个 图 描述 了 单 同 链表 的 逻辑 结构 ， 市 点 在 内 存 中 的 存储 位 置 
可 以 任意 ， 当 节点 2 和 节点 5 要 被 释放 时 ， 一 般 的 做 法 是 修改 链表 的 指 
癌 ， 然 后 调用 free 函 数 将 节点 2 和 节点 5 的 空间 释放 掉 。 当 要 新 增 节点 7、 
节点 8 时 ， 再 调用 malloc 函 数 申请 空间 ， 再 将 指针 链接 好 。 

这 种 结构 频繁 的 使 用 动态 内 存 分 配 ， 一 次 两 次 也 就 算 了 ， 可 是 如 果 
频繁 的 动态 分 配 和 释放 内 存 ， 它 的 缺点 就 暴露 无 遗 ， 表 现在 : 

(1) malloc、free 函 数 会 耗费 大 量 的 执行 时 间 。 

(2) 会 产生 内 存 雄 片 ， 浪 费 内 存 空间 。 

(3) 有 可 能 导致 内 存 泄露 ， 分 配 的 内 存 忘 记 了 释放 。 

(4) 空间 比较 分 散 ， 增 大 了 Cache miss 的 可 能 性 。 

在 伦 入 式 这 种 时 间 和 空间 都 非常 紧张 的 环境 下 ， 使 用 这 种 方式 很 可 
能 无 法 满足 性 能 的 要 求 ， 这 时 我 们 可 以 目 己 实现 动态 内 存 的 管理 ， 解 决 
上 面 的 几 个 问题 。 

一 次 性 开辟 一 大 块 空间 ， 划 分 出 N 个 节点 ， 将 节点 的 指针 链接 成 一 
个 链表 ， 将 要 释放 的 节点 2 和 节点 5 链接 在 一 个 free list (回收 链表 )〉 上 ， 
如 下 图 所 示 。 























上 
































当 要 分 配 新 的 节点 时 ， 不 需要 调用 malloc 函 数 ， 只 需要 从 free _ list 中 
找 一 个 节点 链接 在 节点 链表 上 即 可 ， 这 样 就 避免 了 频 索 的 malloc 和 
free。 这 种 方式 非常 适合 于 每 个 节点 长 度 相 等 的 情况 。 


竹 占 
链表 2 4 0 





free list 结 构 
6.4.9 ”隐藏 数据 搬移 时 间 


如 果 处 理 器 内 部 有 可 寻 址 的 SRAM， 应 当先 用 DMA 将 数据 搬移 到 处 
理 器 内 部 ， 这 样 内 核 访 问 数据 的 速度 要 快 很 多 。 

对 于 很 多 有 Cache 预 取 机 制 的 处 理 器 ， 也 可 以 让 Cache 提 前 去 预 取 数 
据 ， 如 下 图 所 示 。 


时 间 


数据 搬移 








隐藏 数据 搬移 时 间 


6.5 ”充分 利用 编译 天 进行 优化 一 顷 详 项: 我 才 
征 优化 第 一 高 于 


6.5.1 ”编译 器 的 结构 一 一 知己 知 役 ， 百 战 不 至 


战场 上 讲 完 知己 知 彼 ， 百 战 不 殉 。 写 代码 时 ， 这 个 彼 就 是 编译 器 ， 
因为 编译 器 将 我 们 写 的 高 级 语言 转换 为 处 理 器 执行 的 汇编 语言 ， 程 序 的 
执行 效率 ， 在 这 一 阶段 就 已 经 决定 了 一 大 半 了 。 我 们 首先 应 该 知道 编译 
器 能 做 什么 。 

下 图 描述 了 编译 旨 的 基本 结构 。 

编译 嚣 像 处 理 器 一 样 ， 也 被 分 成 了 前 并 和 后 端 ， 前 端 分 析 高 级 语言 
代码 的 文本 ， 生 成 中 间 代 码 ， 后 端 对 这 个 中 间 代 码 做 通用 优化 和 针对 处 
理 絮 的 优化 ， 生 成 在 处 理 器 上 执行 的 目标 代码 。 

那么 编译 器 能 做 什么 优化 呢 ? 
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编译 器 结构 
6.5.2 ”编译 器 提供 了 几 级 优化 选项 一 分 级 管理 
编译 器 提供 了 诸多 优化 功能 ， 将 这 些 优 化 功能 都 开放 给 程序 员 进 行 






































选择 ， 这 样 太 多 也 太 复 杂 了 ， 于 是 编译 器 将 优化 功能 组 合成 几 个 等 级 ， 
开放 给 程序 员 进 行 配置 。 例 如 ， 编 译 选项 -O00 表 示 不 优化 或 进行 很 小 的 
优化 ，-O1 到 -O03 分 别 对 应 3 个 级 别 的 优化 。-03 一 般 是 文件 内 部 的 优化 ， 
跨 文 件 的 编译 器 优化 ，Intel 编 译 器 使 用 -ipo (Interprocedural 
Optimization〉，TIDSP 使 用 -pm。 

编译 右 优 化 常常 会 之 来 程序 空间 的 增加 (如 自动 做 函数 inline 
等 ) ， 对 于 有 些 舱 入 式 系统 ， 存 储 空 间 有 限 ， 这 时 就 不 能 过 度 优化 ， 致 
使 程序 过 大 。 编 译 器 通常 会 开放 一 些 选 项 来 让 程序 员 配 置 时 则 和 空间 的 
平衡 ， 在 VC ”6.0 中， 程序 员 可 以 选择 maximize speed 或 者 是 minimize 
size， 在 TIDSP 中 ， 程 序 员 使 用 -ms0 告 诉 编译 器 要 减少 程序 大 小 。 








6.5.3 ”编译 器 会 计算 常量 


如 下 的 代码 : 


| double ar b; 
Ila= b+ 2.0 7/ 3.,0; 人 


编译 器 会 自动 计算 出 2.0/3.0， 将 代码 改 为 : 
a= b+ 0.660666666666666666667; 站 a i 潮 | 
6.5.4 简单 的 表达 式 化 简 
如 下 的 代码 : 
Re 0 a | 
了 "(at+S3) / + Mk 


编译 器 会 转换 为 : 


int a,; b, er temp? 
temp = at+s} 

b wm temp * temp; 
C= temp >> 2? 





























6.5.5 ”提取 公共 语句 


如 下 代码 : 


i = 100; 
while (i<0) 
{ 


主 十 = Xt+y} 
wp 三 于 ; 





编译 器 会 分 析出 x 十 y 是 独立 于 while 循 环 之 外 的 ， 能 将 x 十 y 提 取出 


2 


temp = X+Y7 
while (i<0) 
{ 
i += temp; 
we 





如 下 代码 : 


double x, y, Zi bool bi 
if {b) 


sin(lx); 
YY 4207 


= Cos(x); 
= y+* 1.0; 





编译 器 会 将 z= 二 y 十 1.0 提 取出 去 。 


double x, y, z? bool b; 
if {b) 
{ 


y = Sin(x); 





Y = COS (X) ; 
} 





ZY 0 


6.5.6 ”循环 展开 、 软 件 流水 





将 二 八 定律 用 在 程序 执行 时 间 上 ， 那 就 是 20% 的 代码 占据 80% 的 执 
行 时 间 ， 这 些 20% 的 代码 就 是 循环 代码 。 在 VLIW 章 节 中 ， 我 们 已 经 描 
述 了 编译 器 能 对 循环 进行 展开 ， 进 行 软件 流水 。 为 了 使 编译 器 能 有 效 的 
优化 循环 ， 编 译 器 需要 知道 一 些 信息 ， 如 在 C6000 DSP 中 ， 我 们 可 以 在 
循环 代码 前 通过 预 编 译 指 令 告诉 编译 器 一 些 信息 。 


// 告 诉 编译 器 for 循环 至 少 执行 4 次 ， 最 多 执行 256 次 ， 循 环 次 数 是 4 的 整数 倍 
#pragma MUST ITERATE (4, 256,4) 


for () 





6.5.7 ”自动 向 量化 


SIMD 指 令 在 各 种 处 理 嚣 上 痢 是 非常 第 见 ， 编 译 费 也 会 分 析 代 人 码 的 
行为 ， 尽量 多 使 用 SIMD 指 令 ， 不 过 ， 编 译 占 目 动 辐 量化 ， 通 第 需要 程 
序 员 告 诉 编译 器 一 些 信 息 。 

下 面 这 段 代码 是 Intel 优 化 手册 中 的 例子 : 








void add {float *restrict a,float *restrict b,float *restrict c¢) 
{ 
int i2; 
for (i = 0; i < 4; i++) 
{ 
Cli} = ali} + blil; 
} 











这 段 代 码 如 果 没 有 关键 字 restrict， 编 译 器 是 不 会 将 代码 优化 为 
SIMD 指 令 的 ， 或 者 更 准确 地 说 ， 有 是 不 敢 。 为 什么 不 敢 呢 ? 

在 下 面 这 个 图 中 ， 每 个 方 格 是 一 个 float 大 小 的 空间 ， 如 果 a 指 网 了 
第 0 个 元 素 ，b 指 网 了 第 2 个 元 素 ，c 指 癌 了 第 3 个 元 么 ，SIMD 指 令 一 次 处 
理 4 个 数据 和 一 般 指 令 一 次 处 理 一 个 数据 的 结果 是 不 一 致 的 。 编 译 器 为 
了 保证 程序 执行 的 正确 性 ， 宁 可 错 杀 一 百 ， 不 可 放 过 一 个 ， 不 会 对 它 进 
行 优化 。 








| 


aliasing (混淆 ) 

restrict 关 键 字 会 告诉 编译 器 a、b、c3 个 指针 指向 的 空间 是 没有 交 鞋 
的 ， 这 样 编译 器 就 能 对 它们 做 合适 的 优化 。 对 于 上 面 这 段 代 码 ， 编 译 器 
就 能 使 用 SIMD 指 令 来 优化 它 。 

除了 restrict 关 键 字 外 ， 编 译 器 还 可 以 通过 编译 选项 来 声明 没有 混 
淆 ， 如 VC 6.0 中 这 个 功能 的 编译 选项 叫做 Assume No aliasing，TIDSP 中 
类 似 的 选项 叫 -mt。 

同样 是 下 面 这 个 例子 : (VC 6.0 帮 助 文档 的 例子 ) 


[i = 100; 
| whi te (ix0) 
{ 
i += Xx+y? 
*p 一 i} 
} ee 


如 果 使 用 了 Assume No aliasing， 编 译 器 就 能 将 x 十 y 放 到 循环 的 外 
而 ， 耕 则 就 不 会 ， 因 为 p 指 针 有 可 能 指 同 x 或 者 y。 


6.5.8 ”高 效 的 数据 组 织 























编译 器 一 个 很 重要 的 功能 就 是 为 程序 中 的 变量 分 配合 适 的 存储 空 
间 ， 保 证 处 理 器 访问 数据 最 高 效 ，Cache 冲 突 最 小 。 
编译 器 也 能 对 函数 的 存储 空间 进行 分 配 ， 减 少 程序 Cache 的 Cache 


miss 。 
6.5.9 ”指令 并 行 化 


VLIW 处 理 器 的 编译 器 还 有 一 项 重要 的 工作 ， 就 是 完成 指令 的 并 行 
化 。 编 译 器 通过 分 析 指 令 的 相关 性 ， 实 现 指令 的 乱 序 调度 ， 依 照 处 理 器 
的 功能 单元 将 指令 并 行 起 来 。 

VLIW 处 理 器 通常 寄存 器 数量 较 多 ，C64 DSP 拥 有 64 个 ISA 寄 存 器 ， 
远 多 于 x86， 寄 存 器 数目 多 ， 就 可 以 减少 因为 共用 寄存 器 而 导致 的 相 
关 。 为 了 让 编译 器 更 好 地 分 配 寄存 器 ， 并 更 好 地 分 析 程序 ， 每 个 函数 不 
应 过 大 ，for 循 环 也 不 应 太 大 。 

为 了 让 指令 更 好 地 并 行 化 ， 高 级 代码 就 要 减少 数据 的 依赖 性 ， 如 下 
面 这 上 段 代 码 : 











hi a / 


改 成 下 面 这 种 形式 ， 第 一 条 语句 和 第 二 条 语句 就 可 以 并 行 执行 了 。 


Xp 
y=C + d; 
2 


6.5.10 ”编译 器 更 懂 处 理 器 一 ”百度 更 懂 中 文 


虽然 这 章 的 标题 是 编写 高 效 代 码 ， 但 是 实事 求 是 地 说 ， 高 效 代码 是 
编 出 来 的 ， 更 是 编译 出 来 的 。 编 译 吉 才 是 优化 代码 的 第 一 高 
软件 从 创作 到 使 用 ， 会 经 历 这 3 个 阶段 : 























我 才 是 优化 第 一 高 手 
GO 





编译 器 : 优化 第 一 高 手 


人 处理 硕 执 行 指令 





软件 从 创作 到 使 用 的 3 阶段 
编译 器 将 我 们 写 的 代码 编译 成 处 理 器 能 执行 的 指令 ， 我 们 需要 熟悉 
编译 器 的 特性 ， 告 诉 它 更 多 的 细节 ， 以 利于 它 更 好 的 为 我 们 优化 代码 。 
Intel 称 Intel ”CGC/C 十 十 编译 占 比 一 般 的 编译 器 对 相同 的 代码 能 提高 
10% 的 性 能 ， 其 实 原因 很 简单 ， 套 用 百度 的 广告 语 “ 百 度 更 懂 中 文 ”， 
Intel 更 懂 x86。 








6.6 利用 多 核 来 加 速 程序 一 一 人 多 力量 大 
6.6.1 并 行 计算 


不 少 机 构 热 束 于 比拼 超级 计算 机 ， 如 中 国 的 “天 河 一 号 ”、“ 星 云 ”， 
美国 的 “美洲 虎 *”、“ 蓝 色 基 因 * 等 ， 超 级 计算 机 通常 由 成 和 十 上 万 个 CPU 和 
GPU 组 成 ， 运 算 能 力 超 强 。 超 级 计算 机 不 仅仅 是 个 面子 工程 ， 也 是 很 多 
应 用 的 必需 品 。 国 家 的 统计 数据 、 科 研 机 构 的 科学 计算 、 石 油 公司 的 地 
质 勘 测 、 地 展 局 的 地 许 监 测 、 互 联网 的 搜索 引擎 、 数 据 挖掘 等 ， 靠 几 台 
PC 是 无 法 解决 问题 的 ， 还 得 靠 超 级 计算 机 ， 或 者 是 计算 机 集群 。 

光 把 这 么 多 CPU 和 GPU 放 在 一 起 是 远 远 不 够 的 ， 还 得 徘 软 件 将 它们 
都 管理 起 来 ， 起 完成 一 项 任务 ， 这 束 是 并 行 计算 。 

并 行 计算 长 期 以 来 都 是 在 服务 器 软件 中 得 以 应 用 ， 在 PC 软件 和 要 
入 式 软 件 中 很 少 使 用 ， 这 得 归功 于 人 处理 器 单 核 性 能 的 持续 提升 ， 然 而 ， 
现在 程序 员 的 好 日 子 快 到 头 了 ， 单 核 性 能 已 经 很 难 再 进一步 提升 ， 处 理 
虱 公 司 纷纷 推出 多 核 的 处 理 器 ， 多 核 编程 势 不 可 接 。 

让 多 个 核 或 多 个 CPU 来 共同 完成 一 件 工作 ， 这 就 好 比 一 个 人 的 任 
务 ， 现 在 有 N 个 人 来 帮忙 ， 这 活 怎 么 分 呢 ? 























3 这 么 多 人 ， 
这 活 咱 分 及 





分 工 的 困惑 
其 实 我 们 从 小 就 会 分 派 任务 ， 也 知道 用 并 行 来 节约 时 间 。 下 面 就 是 
一 些 间 用 的 并 行 化 的 方法 。 
任务 划分 
将 整个 工作 分 成 N 个 独立 的 任务 ， 每 个 核 完成 一 个 任务 。 


人 0 AD 








任务 划分 

任务 划分 是 最 肖 见 的 一 种 并 行 方式 ， 一 行人 去 野 炊 时 ， 领 队 就 会 分 
配 任务 : 你 去 生火 ， 你 去 搭 帐篷 ， 你 去 洗 食 物 .…… 这 就 是 任务 划分 。 
数据 划分 

如 果 一 件 任 务 会 处 理 大 量 独立 的 数据 ， 就 可 以 将 这 些 数据 分 配给 不 
同 的 核 来 处 理 。 数 据 划分 和 任务 划分 不 同 点 在 于 : 任务 划分 各 个 核 执行 
的 代码 是 不 一 样 的 ， 数 据 划 分 各 个 核 执 行 的 代码 是 一 样 的 ， 只 是 数据 不 
同 。 

小 学 时 打扫 卫生 ， 卫 生 委 员 惑 会 分 配 任务 : 你 扫 第 一 组 ， 你 扫 第 二 
组 .…... 这 束 是 数据 划分 。 











数据 划分 
数据 流 划 分 
整个 工作 被 分 成 了 N 个 步骤 ， 每 个 核 负 责 一 个 步骤 ， 这 里 我 们 又 看 
到 了 流水 线 的 思想 ， 数 据 在 它们 之 间 流 动 ， 因 此 也 叫 数 据 流 划分 。 





数据 流 划 分 
通 第 一 个 复杂 工作 的 划分 ， 是 上 和 面 3 种 方式 的 组 合 。 


对 于 搬 砖 头 来 说 ， 两 个 人 要 比 一 个 人 快 。 对 于 画家 作 转 来 说 ， 多 一 
个 人 只 能 帮 倒 忙 。 有 些 程序 天 生 束 不 具备 并 行 性 ， 如 递归 的 Fibonacci 序 
列 等 ， 也 就 没有 必要 强行 拆 分 。 


2. Amdahl's Law 


Amdahl 很 早 就 研究 并 行 计算 ， 他 提出 了 一 个 关于 并 行 计算 提升 效 
率 的 法 则 ， 被 称 为 阿 姆 达 尔 定 律 〈Amdahls Law) 。 它 的 基本 思想 是 ， 


程序 执行 ， 总 会 有 串 行 执行 的 部 分 ， 并 行 计 算 的 效率 提升 取决 于 两 点 : 
QD 可 并 行 部 分 占 总 过 程 的 比例 ， 忆 并行 的 程度 。 如 下 图 所 示 。 









串 行 部 分 
二 = 





并 行 后 时 间 并 行 前 时 间 


Amdahl's Law 


Amdahl 何 许 人 也 

通常 我 们 都 会 有 这 样 的 常识 ， 同 样 一 句 话 ， 牛 人 说 出 来 和 非 牛 人 说 出 来 的 效果 是 完全 不 一 
样 的 。 阿 姆 达尔 定律 其 实 很 朴素 ， 很 多 人 都 会 说 ， 不 过 这 个 定律 还 是 以 Amdahl 命 名 ， 并 几乎 
出 现在 每 本 计算 机 书 上 ， 那 么 Amdahl 是 何许 人 呢 ? 









































Amdahl 是 IBM 著 名 大 型 计算 机 System/360 的 Chief Architect， 也 是 IBM Fellow，System/360 
第 一 次 提出 了 指令 集体 系 结构 (TSA) ， 实 现 了 软件 的 兼容 性 。 后 来 Amdahl 自 立 门户 ， 创 立 了 
以 自己 名 字 命 名 的 公司 ， 生 产 System/360 兼 容 机 和 外 设 ， 从 此 计算 机 开始 硬件 兼容 ， 可 以 说 
Amdahl 是 计算 机 兼容 性 的 鼻祖 。 


























3. 多 线程 编程 





线程 是 处 理 器 上 执行 程序 的 基本 单位 ， 为 了 让 多 个 核 共同 完成 一 项 
工作 ， 工 作 首先 要 被 分 解 为 线程 ， 然 后 这 些 线程 再 被 分 配 到 不 同 的 核 上 


\ 一 /一 
运 休 。 


工作 、 线 程 、 内 核 

操作 系统 提供 了 线程 库 ， 让 程序 员 能 方便 地 使 用 线程 ， 如 Linux 下 
的 POSIX Thread (PThread) 和 Windows 下 的 Win 32 Threads。 

多 线程 编程 并 不 是 一 件 容易 的 事情 ， 线 程 之 间 必 定 会 有 关联 ， 而 线 
程 越 多 ， 关 联 越 复杂 ， 程 序 员 通常 会 因为 分 析 不 清 而 导致 程序 出 错 。 就 
像 战 国 时 代 ， 七 个 国家 的 关系 错综复杂 ， 而 像 苏 秦 这 样 一 个 玩 转 七 国 、 
身 挂 六 国 相 印 、“ 一 怒 而 天 下 恨 ， 安 居 而 天 下 炸 ”* 的 人 毕竟 是 少数 ， 大 多 
数 人 处 理 一 两 个 国家 的 外 交 就 已 经 很 吃力 了 。 

多 线程 编程 要 注意 线程 间 的 同步 ， 既 然 是 多 个 线程 协同 完成 一 件 工 
作 ， 线 程 间 必 定 会 有 数据 通信 ， 多 个 线程 恋 一 份 数据 还 好 ， 如 果 涉 及 
写 ， 就 像 Cache 一 致 性 一 样 ， 需 要 严格 的 访问 控制 。 通 常 线程 会 使 用 鬼 
王 达 王牌 防守 绝技 一 一 “ 锁 ? 来 防止 多 个 线程 同时 读 写 一 份 数 据 ， 当 一 个 
线程 在 访问 数据 时 ， 束 将 这 份 数据 锁 上 ， 这 样 别 的 线程 就 不 能 访问 这 个 
数据 了 ， 竺 访问 完 后 ， 访 线程 就 释放 这 个 锁 ， 别 的 线程 获取 这 个 锁 ， 残 
可 以 访问 这 份 数据 了 。 






























写 读 

线程 的 同步 控 第 

线程 如 打分 工 不 好 ， 那 么 CPU 大 量 的 时 间 束 浪费 在 了 线程 间 的 通信 

上 上 ， 这 就 好 比 在 公司 里 ， 一 天 到 晚 在 开会 、 沟 馆 ， 什 么 正事 也 做 不 了 。 

多 线程 编程 也 要 注意 负载 均衡 ， 划 分 了 10 个 线程 ， 一 个 线程 累 死 ， 
其 他 9 个 线程 一 下 子 束 做 完了 ， 这 不 公平 ， 会 影响 总 体 的 效率 。 





a 





” 





负载 均衡 
多 线程 编程 还 要 注意 可 扩展 性 ， 现 在 处 理 器 有 4 个 核 ， 划 分 了 4 个 线 
程 ， 执 行 起 来 效率 挺 高 ， 如 果 将 来 处 理 占 换 成 了 8 个 核 ，4 个 线程 还 是 只 
能 在 4 个 核 上 运行 ， 效 率 也 没有 提升 ， 这 样 的 划分 方式 就 不 太 好 了 。 





6.6.2 OpenMP 





不 少 公司 的 愿景 都 是 使 人 类 的 生活 更 美好 ， 而 要 达到 这 个 目的 ， 产 
品 就 应 该 简单 ， 好 的 产品 应 该 像 傻 瓜 相 机 一 样 ， 傻 瓜 也 会 用 。 程 序 员 也 


是 人 ， 我 们 的 生活 也 应 该 更 美好 ， 我 们 的 编程 也 应 该 更 简单 。 

并 行 编程 不 简单 ， 程 序 员 需 要 划分 线程 、 分 析 线 程 间 的 数据 关系 、 
管理 它们 的 同步 、 控 制 它们 的 负载 均衡 等 ， 这 些 都 是 很 烦琐 的 工作 。 不 
过 还 好 ， 一 群 计算 机 硬件 和 软件 公司 联合 推出 了 一 套 并 行 编程 架构 
OpenMP， 蔡 我 们 做 了 这 些 工作 。 

OpenMP 专 为 共享 内 存 系 统 而 设计 ， 适 用 于 多 核 处 理 器 : 











ps 


| 
| 
| 





~ memory controller 


memory 


共享 内 存 
OpenMP 不 需要 我 们 编写 多 线程 程序 ， 只 需要 在 代码 中 增加 预 编译 
指示 #pragma 及 OpenMP 的 api (application program interface) 即 可 ， 编 译 
器 自动 将 代码 划分 为 N 个 线程 去 执行 。 也 就 是 说 ， 程 序 员 通过 OpenMP 
接口 告诉 编译 器 怎么 划分 线程 ， 编 译 器 去 实现 多 线程 的 控制 。 
一 个 简单 的 OpenMP 使 用 如 下 : 


#Pragma omp parallel num threads(8)  // 设 置 8 个 线程 数 
#pragma omp parallel for // 将 下 面 for 循环 分 到 8 个 线程 中 执行 


for (i = 0; i < 1024; i++ ) 
{ 

cfij = at] + blilj; 
} 





在 这 个 例子 中 ， 编 译 占 会 将 这 个 人 循环 采用 数据 划分 的 方式 ， 分 配 到 
8 个 线程 中 执行 。0 一 127 的 数据 作为 一 个 线程 ，128 一 255 的 数据 作为 一 


第 7 章 SOC 一 了 吸 星 大 法 


连 百 亿 品 体 管 ， 战 必 胜 ， 攻 必死。 
夫 英 雄 者 ， 胸 怀 大 志 ， 腹 有 展 谋 ， 
有 包 藏 宇宙 之 机 ， 吞 吐 天 地 之 志 者 也 。 


导读 一 “CPU 与 GPU 的 融合 

















CPU 和 显卡 是 决定 电脑 性 能 最 








重要 的 两 部 分 ， 随 着 显卡 上 GPU 性 能 及 可 编程 性 的 提高 ， 
GPU 觉得 可 以 挑战 一 下 CPU 的 主导 地 位 ，nVidia 说 CPU 大 势 已 去 ， 会 与 GPU 共存 于 市 场 ， 但 
































GPU 比 CPU 更 为 重要 ，Intel] 则 说 他 们 是 瞎 扯 ， 他 们 之 间 的 口水 会 就 一 直 没 有 停 过 。 
2006 年 ，AMD 以 54 亿 美金 收购 ATI， 于 是 AMD 这 个 CPU 的 老 二 ， 和 ATI 这 个 GPU 的 老 二 走 
到 了 一 起 ， 一 起 应 对 Intel 和 nVidia。AMD 不 参与 CPU 和 GPU 的 口水 仗 ， 因 为 这 两 个 都 是 自己 的 








孩子 。 


2011 年 ， 我 们 终于 迎 来 了 CPU 与 GPU 的 融合 ， 不 管 
器 芯片 都 包含 了 CPU 内 核 和 GPU 内 核 。 而 前 几 年 ， 处 理 器 内 部 就 开始 





Fusion APU， 它 们 的 处 至 



































大 法 ， 将 越 来 越 多 的 功 和 


手 ， 这 时 的 处 理 器 可 以 被 称 为 SOC (System On Chip〉 处理 器 


集成 内 存 控制 器 ， 当 处 至 

















器 内 部 集成 GPU 后 ， 北 桥 芯 片 











E 收 入 赛 中， 
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它 已 不 再 是 以 前 那 


AMD 





是 英特尔 的 Sandy ”Bridge 还 是 AMD 的 












































也 就 不 需要 了 ， 现 在 的 处 理 器 运用 吸 星 
个 扳 胆 英雄 ， 它 已 经 成 为 了 一 个 多 面 
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CPU 与 GPU 之 争 








7.1 SOC 大 一统 时 代 
7.1.1 SOC 和 了 JP 


SOC 是 System On Chip《〈 片 上 系统 ) 的 缩写 ， 顾 名 思 义 ， 就 是 将 一 
整个 系统 做 在 一 块 蕊 片上 。 


. AS ”AD 






"电路 要 


从 电路 板 到 SOC 

SOC 通 常 要 包含 至 少 一 个 处 理 器 内 核 ， 那 么 对 于 一 块 包含 处 理 器 内 
核 的 已 片 ， 什 么 时 候 叫 SOC， 什 么 时 候 叫 处 理 器 呢 ? 其 实 半 导体 公司 自 
己 在 蕊 片 命名 时 也 不 会 分 这 么 清楚 ， 不 过 通常 来 说 ， 如 果 一 块 蕊 片 包含 
不 同类 型 的 处 理 器 内 核 ， 或 者 一 块 蕊 片 包 含 处 理 占 十 人 硬件 加 速 器 的 结 
构 ， 就 叫 它 为 SOC， 如 果 一 块 蕊 片 只 有 一 种 类 型 的 处 理 嚣 内核， 就 叫 它 
为 处 理 器 。 

IP (Intellectual Property) 指 的 是 无 形 资产 ， 如 专利 、 版 权 等 ， 在 半 
导体 领域 ，IP 指 的 是 一 块 独立 的 逻辑 或 电路 设计 ， 如 处 理 器 核 、 存 储 器 
核 等 。IP 是 SOC 的 基本 组 成 部 分 ，SOC 就 是 将 一 些 IP 通 过 互联 网 络 连接 
起 来 。 很 久 以 前 ， 计 算 机 需要 专业 公司 制造 ， 现 在 ， 搭 建 一 个 计算 机 ， 
就 好 像 搭 积木 一 样 ， 相 信和 在 不 久 的 将 来 ， 设 计 一 个 SOC 心 族 也 像 搭 积 
一 样 简单 。 





SOC 与 卫 
Intel 公 司 的 早期 投资 人 Arthur Rock 曾 提 出 所 谓 的 Rock 定律 : “制造 
半导体 集成 电路 所 需要 的 主要 设备 的 成 本 每 4 年 束 要 翻 一 番 。” 





Rock 定 律 描绘 了 现在 半导体 产业 产生 的 变化 ， 随 着 半导体 制程 工艺 
的 提升 ， 半 导体 制造 成 本 也 大 幅 攀 升 ， 如 果 没 有 一 定 的 心 片 销量 来 分 摊 
成 本 ， 半 导体 公司 很 难 支 撑 起 制造 工厂 的 费用 。 不 少 原来 有 唱 圆 三 的 半 
导体 公司 都 放弃 了 自己 的 工厂 ， 找 代 工 三 代 工 ， 转 加 了 无 唱 圆 三 
(fabless) 或 轻 晶 圆 广 〈fab-lite) 的 业务 模式 。 

与 此 同时 ， 专 业 的 人 P 设 计 公司 越 来 越 多 ， 它 们 将 IP 核 卖 给 半导体 公 
司 ， 半 导体 公司 就 像 从 超市 买 一 堆 零 件 (IP 核 )， 回 来 自己 攒 蕊 片 ， 它 
们 搭建 成 自己 的 SOC 设 计 ， 自 己 生产 或 者 委托 芯片 代 工厂 生产 出 芯片 ， 
然后 卖 给 设备 商 ， 设 备 商 做 成 设备 ， 卖 给 用 户 。 


1P 枝 SOC 芯 片 设备 








半导体 产业 示例 


7.1.2 SOC 市 场 驱 动力 


人 们 都 喜欢 便于 携带 、 功 能 强大 、 成 本 低 、 功 耗 低 的 产品 ， 这 些 是 
SOC 的 市 场 驱 动力 。 以 现在 的 智能 手机 为 例 ，SOC 心 厂 将 众多 的 电路 模 
块 集成 在 一 个 已 片 中 ， 这 才 使 得 现在 的 智能 手机 功能 这 么 强大 ， 体 积 


以 做 得 这 么 小 ， 同 时 价格 又 低 。 
集成 电路 、 软 硬件 技术 、 仿 真 技术 的 发 展 使 SOC 得 以 实现 。 集 成 电 
路 制程 工艺 的 提高 使 公 片 内 拥有 更 多 的 晶体 管 ， 于 是 设计 师 们 可 以 在 必 
片 内 设计 更 多 的 电路 ， 完 成 更 多 的 功能 ， 余 片 电路 的 设计 也 离 不 开 软 便 
件 技术 和 仿真 技术 的 文 撑 。 
便携 ， 体 积 小 ， 功 能 全 ， 低 功 耗 ， 低 成 本 


市 场 驱动 力 和 soc 为 

“po 
集成 电路 ， 软 件 硬件 设计 ， 仿 真 技术 
SOC 的 市 场 驱 动力 和 技术 支撑 


7.2 ITP 核 


SOC 最 早 来 源 于 舱 入 式 系统 ， 手 机 、 平 板 电 脑 等 产品 中 有 一 个 重要 
的 芯片 ， 叫 做 应 用 处 理 器 ( Application Processor) ， 其 作用 就 类 似 于 
PC 中 的 处 理 器 十 显卡 十 丙 北 桥 ， 应 用 处 理 器 就 是 一 个 最 典型 的 SOC。 

下 图 为 TT OMAP 应 用 处 理 占 的 基本 结构 : 


CPU 核 DSP 核 Video Engine 核 
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CPU 核 Feripherale 外 设 与 接口 


TI OMAP 应 用 处 理 器 〈 引 自 TI) 








其 他 公司 的 应 用 处 理 需 结构 也 大 同 小 民 ， 在 一 个 应 用 处 理 器 中 ， 最 





重要 的 部 分 就 是 如 下 4 个 IP 核 : 


应 用 处 理 器 





应 用 处 理 器 中 最 重要 的 4 个 人 P 核 


CPU、DSP、GPU 实 际 上 都 是 处 理 器 ， 只 是 各 自 面向 的 应 用 不 一 
样 ， 处 理 器 结构 有 所 不 同 ， 所 以 有 了 不 同 的 名 字 。 

CPU 更 面向 通用 型 的 应 用 ， 也 就 是 说 它 什 么 都 可 以 做 ， 最 容易 编 
程 。x86、ARM、MIPS、PowerPC 都 可 以 叫做 CPU; DSP 面 向 信号 处 理 
的 应 用 ，DSP 处 理 器 根据 信号 处 理 算法 做 了 特殊 设计 ， 需 要 通过 调 优 程 
序 来 提高 程序 的 执行 效率 ，GPU 最 早 是 硬件 化 的 图 形 加 速 设 备 ， 后 来 逐 
渐 演 化 为 可 编程 的 处 理 器 ， 它 最 适合 于 图 形 算法 。 

在 《对 斗士 星矢 》 中 ， 圣 斗士 几乎 就 是 黄金 圣 斗 士 的 翻版 ， 而 应 用 
处 理 吉 上 的 耳 核 也 几乎 能 在 PC 上 找到 翻版 。 
半导体 行业 和 通信 行业 

半导体 行业 和 通信 行业 一 直 是 紧密 相连 的 ， 不 少 半 导体 公司 是 从 通信 公司 分 离 出 来 的 ， 如 
Freescale 来 自 于 Motorola，Agere Systems 来 自 于 Lucent。 大 型 通信 公司 大 多 拥有 自己 的 半导体 
部 门 ， 并 且 实 力 不 凡 ， 而 通信 公司 也 是 各 大 半导体 公司 的 主要 客户 。 高 通 公司 甚至 很 难 严格 区 
分 它 是 属于 半导体 行业 还 是 通信 行业 。 

事实 上 ， 半 导体 是 IT、 通 信 、 嵌 入 式 等 行业 的 基石 ， 对 于 通信 行业 尤为 如 此 。 通 信行 业 作 
为 基础 设施 ， 服 务 的 用 户 数量 庞大 ， 对 软 硬 件 的 成 本 、 性 能 、 功 耗 等 因素 都 有 严格 的 要 求 。 通 
信 过 程 实际 上 就 是 信号 的 传输 与 处 理 的 过 程 ， 不 管 是 多 媒体 信号 还 是 无 线 信号 ， 都 需要 庞大 的 
计算 能 力作 为 支撑 ， 而 半导体 行业 的 发 展 满足 了 通信 行业 的 需求 ， 促 进 了 通信 行业 的 发 展 。 




































































































































































7.2.1 CPU IP 


PC 上 最 重要 的 部 件 就 是 CPU， 同 样 手机 的 应 用 处 理 器 中 也 有 
CPU.。CPU 是 整个 系统 的 控制 单元 ， 操 作 系 统 还 有 应 用 程序 都 在 CPU 上 
执行 。 在 PC 上 ， 这 个 CPU 是 x86 内 核 ， 在 手机 上 ， 这 个 CPU 是 ARM 等 内 
核 。 

1. ARM CPU core 


ARM CPU core 最 早 可 追溯 到 1983 和 年， 电脑 公司 Acom Computer 想 开 
发 自己 的 CPU， 不 过 它 是 个 小 公司 ， 玩 不 起 芯片 ， 于 是 将 自己 的 CPU 设 
计 授 权 给 VLSI Technology 公 司 ， 这 几乎 是 历史 上 最 早 的 卫 授 权 ，ARM 


成 为 最 老 和 最 成 功 的 IP 设 计 公司 。 有 的 公司 直接 使 用 ARM 授 权 的 内 核 ， 
如 TI、 苹 果 、 三 星 等 ， 有 的 公司 自己 设计 和 ARM 指 令 集 兼 容 的 CPU， 如 

ARM 公 司 历 史上 以 奇数 命名 的 内 核 ， 通 党 都 比较 成 功 ， 如 AMR7、 
ARM9 等 ， 都 是 一 代 经 典 ， 而 以 偶数 命名 的 内 核 ， 如 ARM6、ARM8、 
ARM10 等 ， 都 不 太 成 功 ，ARM 公 司 在 ARM11 后 ， 就 改 用 Cortex 这 个 品 
牌 。ARM 的 Cortex 内 核 分 成 了 3 部 分 : Cortex-A、Cortex-R、Cortex-M， 
A、R、M 合 起 来 就 是 ARM。 

Cortex-A 系 列 用 于 Application processing， 主 要 是 指 应 用 处 理 器 ， 上 
面 运 行 操作 系统 和 应 用 程序 ，Cortex-R 系 列 用 于 Real-time embedded 
applications， 即 实时 性 非常 高 的 蔡 入 系统 ， 如 硬盘 驱动 器 等 ，Cortex-M 
系列 用 于 Micro-controller 〈 微 控制 器 ) ， 如 工业 控制 中 的 微 控制 器 。 手 
机 上 的 应 用 处 理 咒 束 使 用 Cortex-A 系 列 ， 如 iPhone 使 用 Cortexz-A8、iPad2 
使 用 Cortex-A9。Cortex-A8 使 用 的 是 顺序 执行 的 超标 量 结 构 ，ARM 从 
Cortex-A9 开 始 使 用 乱 序 执行 内 核 ， 文 持 寄 存 器 重合 名， 文 持 分 文 预 
测 。 

使 用 Cortex 命 名 比 使 用 数字 命名 有 一 个 好 处 ， 很 多 人 都 会 混 清 
ARMV7 和 ARM7， 认 为 它们 是 一 个 东西 ， 其 实 ARMV7 是 指令 集 的 代 
号 ，ARM7 是 内 核 的 代号 。ARM7 使 用 ARMv4 指 令 集 ，Cortex 系 列 都 使 
用 ARMv7 指 令 集 。 














2. 其 他 CPU core 





ARM 最 直接 的 竞争 对 手 是 MIPS，MIPS 公 司 一 向 以 高 性 能 处 理 器 闻 
名 ，IBM 也 提供 PowerPC 内 核 加 入 到 混战 之 中 ， 其 他 还 有 不 少 公 司 ， 不 
过 ARM 的 地 位 暂时 无 人 能 撼动 。 
7.2.2 GPU IP 


GPU 的 全 称 是 Graphic Processing Unit， 图 形 处 理 器 。GPU 这 个 词 最 


时 来源 于 图 形 处 理 器 巨头 nVidia，nVidia 的 创始 人 兼 CEO 黄 仁 轩 将 nVidia 
的 历史 分 成 了 3 个 阶段 : 
(1) nVidia 1.0 一 一 提供 固定 功能 的 图 形 产 品 。 
(2) nVidia 2.0 一 一 提供 可 编程 的 GPU。 
(3) nVidia ”3.0 一 一 转型 到 并 行 计算 公司 (parallel computing 
company) 。 
在 PC 上 ，GPU 是 游戏 发 烧 友 的 最 爱 ， 在 手机 上 上 ， 游 戏 、 图 形 用 户 
界面 等 也 离 不 开 GPU 的 支持 。 
游戏 的 另类 价值 
很 多 家 长 谈 游戏 色 变 ， 很 多 人 也 将 大 好 青春 浪费 在 游戏 上 ， 不 过 也 有 MIT 的 学 者 研究 声 
， 玩 《魔兽 》 能 锻炼 领袖 魅力 ， 玩 《辐射 3》 能 锻炼 沟通 能 力 ， 玩 《CS》 能 锻炼 团队 精神 ， 
《文明 》 和 《模拟 城市 》 能 锻炼 全 局 观 。 























1. PowerVR graphics core 


手机 上 使 用 最 广泛 的 GPU core 当 属 Imagination Technologies 公 司 开 
发 的 PowerVR graphics core， 它 以 前 面向 PC 市 场 ， 后 来 转战 到 了 手机 市 
场 ，Apple、TI、 三 星 、Intel 等 公司 都 是 它 的 客户 。 





2. 其 他 GPU core 


2006 年 ，ARM 通 过 收购 Falanx， 从 此 也 有 具备 了 提供 GPU IP core 的 能 
力 。ARM 的 GPUcore 名 字 叫 Mali，Mali-200、Mali-400 也 使 用 较 多 。 
Vivante 公 司 也 提供 GC 系 列 的 GPU core。 


7.2.3 DSP IP 


现在 的 智能 手机 中 通常 有 两 个 处 理 器 模块 ， 一 个 是 让 手机 当 PC 用 
的 应 用 处 理 器 ;， 男 一 个 是 负责 无 线 通 信 的 基 市 处 理 器 (Baseband 
Processor) ， 也 叫做 Modem (调制 解 调 费 〉 ， 基 市 处 理 絮 中 最 重要 的 部 
分 是 DSP core， 它 负责 语音 信号 的 编 解码 及 无 线 信号 处 理 。 

















在 应 用 处 理 器 中 也 有 DSP， 它 的 工作 是 在 视频 节目 播放 时 负责 一 部 
分 视频 的 解码 及 音频 的 解码 。 

也 有 公司 将 应 用 处 理 器 和 基带 处 理 器 集成 在 一 块 芯 片 ， 如 高 通 等 公 
ls 

虽然 有 了 TI、Freescale 这 种 专业 提供 DSP 心 族 的 公司 ， 不 过 大 量 的 
应 用 处 理 嚣 、 基 带 处 理 器 厂商 更 需要 DSP core。 








1. Ceva's DSP core 


Ceva 是 使 用 量 最 大 的 DSP core 提 供 商 ， 在 基带 处 理 器 中， 不 少 公司 
都 有 使 用 它 的 DSPcore， 如 Broadcom、Infineon、ST-Ericsson 等 。Ceva 也 
提供 专门 的 音 视 频 DSP。 


2. Verisilicon's ZSP core 


Verisilicon 公 司 也 提供 DSP ”core， 它 的 名 字 叫 ZSP。YVerisilicon 相 比 
Ceva， 更 多 的 面向 低 端 应 用 。 


3. Xtensa core 


前 面 我 们 已 经 介绍 过 不 少 处 理 右 IP core， 下 面 我 们 再 来 看 看 
Tensilica 公 司 的 Xtensacore。Xtensa 是 后 起 之 秀 ， 本 来 行业 竞争 已 经 非常 
激烈 了 ，Xtensa 还 能 在 诸多 强 者 面前 虎口 村 食 ， 实 力 绝对 不 容 小 舰 ， 它 
拥有 别人 所 不 具有 的 绝活 ，Xtensa 的 绝活 就 是 它 这 个 处 理 右 是 可 配置 
的 。 别 的 公司 在 卖 内 核 时 ， 提 供 一 些 处 理 占 内 核 的 列表 ， 如 ARM9 
core、GCortex-A core、Cache 大 小 为 128K 的 、Cache 大 小 为 256K 的 ...... 客 
户 在 其 中 选择 一 球 自 己 最 适用 的 ， 对 大 一 点 、 关 系 铁 一 点 的 客户 ，IP 设 
计 公 司 还 能 针对 客户 的 需求 做 一 定 程 度 的 定制 。 而 Xtensa 内 核 ， 则 是 提 
供 了 一 套 工 具 ， 让 用 户 自己 在 Xtensa 最 基本 的 处 理 嚣 框架 上 ， 设 计 出 自 
己 想 要 的 处 理 器 ， 如 Cache 大 小 、 几 级 Cache、 寄 存 器 的 数目 、 总 线 宽 
度 、 定 义 一 些 新 的 指令 集 等 ， 一 下 子 把 处 理 器 设计 变 得 更 简单 。 








1997 年 ，Chris Rowen 〈 现 任 CIO) 创建 了 Tensilica 公 
司 , “Ten” 指 “Tensile”， 可 扩展 , “Silica” 指 “ 硅 ”， 二 者 合 在 一 起 ， 就 构 
成 了 Tensilica 一 一 灵活 、 可 扩展 的 硅 。 

Chris ”Rowen 毕业 于 哈佛 大 学 ， 获 得 物理 学 士 学 位 ， 并 于 70 年 代 末 
加 入 瑞 特 尔 。80 年 代 初 ，Rowen 又 自 斯 坦 福 大 学 获得 电气 工程 价 士 及 博 
士 学 位 。 在 斯 坦 福 大 学 ，Rowen 加 入 John Hennessy 的 MIPS 团 队 ， 后 来 又 
进入 了 Synopsys 公 司 。 心 片 设 计 和 需要 使 用 到 EDA (Electronic design 
automation) 工具 ，Synopsys 公 司 的 EDA 工 具 非 常 出 名 。Rowen 的 工作 
经 历 使 得 他 既 懂 处 理 占 ， 又 懂 设 计 工 具 ， 难 怪 他 能 弄 出 可 配置 处 理 器 。 
Rowen 还 写 了 《复杂 SoC 设 计 》 一 书 ， 书 中 介绍 了 Xtensa 内 核 的 使 用 。 

一 个 完整 的 可 配置 处 理 器 工具 集 包 括 一 个 预先 定义 好 的 处 理 器 核 和 
一 个 设计 工具 环境 ， 这 个 设计 工具 环境 允许 设计 人 员 对 基本 处 理 器 核 进 
行 大 幅度 修改 以 满足 特殊 应 用 的 需求 。 典 型 的 配置 形式 包括 添加 、 删 除 
和 更 新 存储 器 、 外 部 总 线 宽度 、 总 线 握手 协议 及 公共 的 处 理 器 外 设 首 
人 

Xtensa “core 不 仅 可 以 配置 为 面 问 数据 计算 的 DSP， 也 可 以 配置 为 面 
向 控制 的 CPU， 不 过 配置 为 DSP 更 能 发 挥 它 的 长 处 。 

在 Xtensa _ core 中 可 以 定义 新 的 指令 ， 如 可 以 将 乘法 和 加 法 操作 融合 
(Fuse) 为 一 条 指令 ， 如 下 图 : 




















= 








多 条 指令 合成 1 条 指令 
在 微 淋 构 一 章 中 ， 我 们 知道 了 提 蜗 处 理 右 计算 能 力 可 以 有 多 种 途 





径 。 例 如 : 每 条 指令 做 更 多 的 事 ， 一 条 指令 处 理 更 多 的 数据 ， 同 时 运行 
更 多 的 指令 等 ， 而 这 些 途 径 可 以 在 Xtensa 中 自由 的 实现 。 如 下 图 所 示 : 
Xtensa 内 核 可 以 将 N 个 操作 融合 为 一 条 指令 ， 可 以 让 一 条 指令 一 次 处 理 
M 个 数据 ， 可 以 同时 执行 L 个 指令 ， 那 么 新 的 结构 相对 于 最 基本 结构 ， 
并 行 性 提高 LxMxN 倍 。 














同时 执行 L 个 指令 







同时 操作 M 个 数据 





并 行 性 : LXMXN 





Fused operation 





可 配置 处 理 器 的 并 行 性 
处 理 器 为 了 文 持 更 广 的 应 用 ， 都 会 在 硬件 结构 上 寻找 一 定 的 平衡 ， 
于 是 经 常 出 现 这 样 的 结果 : 几 种 处 理 器 都 可 以 完成 这 项 任务 ， 但 是 都 不 
是 非常 的 适合 ， 不 合适 的 人 硬件 结构 导致 了 功 耗 较 高 ， 而 可 配置 处 理 器 能 
根据 具体 的 应 用 设计 处 理 器 ， 上 自然 能 力 强 ， 功 耗 低 。Tensilica 公 司 除 了 
让 客户 配置 处 理 器 外 ， 自 己 也 基于 Xtensa 内 核 配 置 了 音频 DSP、 视 频 
DSP、 基 带 DSP 供 客户 使 用 。 











7.2.4 Video Engine IP 





很 多 地 方 要 靠 驴 来 拉 货 ， 可 是 如 果 货 物 太 多 ， 驴 就 不 卉 重负 了 ， 很 
多 业务 需要 大 量 的 计算 量 ， 处 理 占 也 会 不 堪 重 人 负 ， 如 下 图 所 示 : 


处 理 器 超大 的 计算 压力 





处 理 器 不 堪 重 负 

解决 上 图 的 难题 有 两 条 途径 ， 一 条 是 多 增加 一 些 马 或 者 驴 ， 组 成 一 
个 多 核 的 结构 ， 分 担 运 算 量 ;， 另 一 条 是 增加 一 个 机 械 设备 专门 用 于 拉 
车 ， 这 就 是 硬件 加 速 器 。 

硬件 加 速 器 是 一 块 专门 干 某 种 活 的 电路 ， 它 不 能 编程 ， 只 能 通过 配 
置 完成 某 几 种 功能 。 因 为 专业 ， 所 以 计算 能 力 强 ， 功 耗 很 低 ， 卫 核 的 面 
积 也 小 ， 这 些 都 是 多 核 处 理 器 所 不 能 比 的 。 

我 们 在 看 视频 时 ， 要 对 视频 进行 解码 ， 我 们 在 用 视频 通话 时 ， 要 对 
摄像 头 采 集 的 图 像 序列 进行 编码 ， 这 些 都 需要 大 量 的 计算 量 ， 分 辩 率 越 
高 ， 所 需 的 计算 量 越 大 ， 现 在 不 管 是 Intel、AMD 的 CPU 还 是 手机 上 的 应 
用 处 理 器 ， 内 部 都 增加 了 专用 的 视频 引擎 用 于 视频 编 解码 加 速 。 

由 于 视频 引 敬 的 技术 含量 ， 相 对 于 处 理 器 来 说 要 低 一 点 ， 因 此 提供 
这 类 IP 的 公司 很 多 ， 中 国 新 起 的 IP 设 计 公 司 ， 很 多 也 是 靠 设计 视频 引擎 
起 家 的 。 














1. ARM Mali Video Engine 


ARM 通 过 收购 Logopard， 使 自己 具备 了 提供 视频 引擎 耻 的 能 力 ， 产 
品名 字 叫 做 Mali Video Engine。 

一 套 视 频 引 擎 ， 通 常 能 文 持 多 种 格式 的 视频 编 解码 ， 如 H.264、 
MPEG4、VP6 等 ， 这 些 视 频 编 解码 算法 很 大 一 部 分 内 容 是 类 似 的 ， 
MaliVideo ”Engine 内 部 包含 了 专用 硬件 电路 和 微 控 制 器 ， 专 用 硬件 电路 
处 理 运算 量 大 、 功 能 单一 的 模块 ， 微 控制 器 通过 软件 的 方式 对 硬件 模块 
进行 控制 ， 实 现 对 多 个 标准 的 支持 。 支 持 多 标准 的 视频 引 敬 几乎 都 采用 
这 种 方式 。 








2. On2 


现在 可 以 说 Google 也 有 IP 设 计 的 业务 了 ， 因 为 它 在 2010 年 收购 了 
On2，On2 开 发 的 视频 编 解 码 标 准 一 一 VP 系列 ， 在 Adobe Flash 上 应 用 广 
泛 ， 而 On2 开 始 耻 设计 业务 ， 也 是 靠 收 购 Hantro 获 得 。 


3. 其 他 Video Engine 


Imagination Technologies 公 司 也 提供 视频 引擎 IP，PowerVR VXD 是 
它 的 解码 IP，PowerVR VXE 是 它 的 编码 IP。 
Ceva、YTensilica、VeriSilicon 等 公司 也 都 有 视频 引擎 TP。 


7.2.5 ”其 他 IP core 
1. 图 像 处 理 IP core 





世界 上 最 大 的 相机 生产 厂家 是 谁 ?佳能 ? 尼康 ? 不 是 ， 是 诺基亚 ! 
几乎 每 一 部 手机 上 就 有 一 个 摄像 涉 ， 有 的 甚至 有 两 个 ， 一 个 用 于 拍照 ; 
另 一 个 用 于 视频 通话 。 要 使 相机 照 出 来 的 图 像 有 好 的 效果 ， 图 像 处 理 功 
能 必 不 可 少 。 

相机 上 的 人 脸 检测 、 笑 脸 检测 、 目 动 对 焦 、 红 眼 消 除 、 防 拌 、 图 像 


滤波 等 功能 都 可 以 通过 IP 核 的 形式 提供 。 

2. 视频 处 理 IP core 

与 图 像 处 理 类 似 ， 视 频 也 有 一 些 处 理 来 提高 画 质 ， 如 : 降 品 ， 云 隔 
行 效 验 ， 亮 度 、 色 度 、 饱 和 度 调 整 等 ， 可 以 以 IP 形 式 提供 。 

3. 处 理 嚣 也 玩 开 源 

以 前 一 直 是 软件 玩 开源 ， 现 在 人 硬件 也 玩 开源 。IP 设 计 ， 实 际 上 是 用 
软件 描述 的 ，Sun 就 曾经 公布 了 『 了 UltraSPARC 处 理 器 的 源 代码 。OpenRISC 


是 一 个 网 上 开源 的 RISC 内 核 ， 由 OpenCores 社 区 维护 。 其 他 的 硬件 开源 
项 目 也 很 多 。 


7.2.6 “总结 


市 场 上 有 许多 终端 厂商 ， 如 苹果 、 三 星 、 诺 基 亚 、 摩 托 罗 拉 等 ， 它 
们 有 的 自己 设计 应 用 处 理 器 ， 有 的 采购 传统 半导体 公司 的 应 用 处 理 吉 ， 
如 TI、 高 通 、 飞 思 卡 尔 等 ， 这 些 公司 又 会 从 ARM、CEVA 等 公司 采购 IP 
核 ， 搭 建 自 己 的 应 用 处 理 器 ， 如 下 图 所 示 : 


(CE Imagination 





IP core、AP、 终 端 关 系 


第 8 章 “ 心 ? 路 历程 一 一 明明 日 日 
我 下 6 小 \? 


蕊 者 ， 国 之 大 事 ， 死 生 之 地 ， 存 亡 之 道 ， 不 可 不 察 也 。 
必 片 如 此 多 娇 ， 引 无 数 英雄 尽 折 腰 。 








三 着 天 本 
本 以 





郭 士 纳 在 成 为 TBM 总 裁 之 后 ， 接 受 美国 福 殉 斯 电视 台 采 访 时 ， 曾 被 主持 人 劈 头 问 道 :“ 请 
问 您 何 德 何 能 从 一 个 卖 昔 片 的 跃升 为 IJBM 总 裁 ? ” 
郭 士 纳 却 一 脸 轻 松 地 回答 道 :“ 反 正 都 是 卖 chip 的 。” 











你 人 履 chip 
co 7 





在 加 入 IBM 之 前 ， 郭 士 纳 的 映 份 是 纳 贝 斯 元 食品 集团 (RJR ”Nabisco) 总 裁 ， 该 集团 以 生 
产 昔 片 和 饼干 闻名 于 世 。 昔 片 和 芯片 在 英文 单词 里 都 叫做 “chip”。 

在 汉语 辞典 中 ， 蕊 的 意思 是 “物体 的 中 心 部 分 ”， 片 的 意思 是 “ 平 而 薄 的 物体 "。 将 电路 板 上 
的 chip 翻 译 成 老 片 ， 果 然 是 “ 信 、 达 、 雅 ”俱全 啊 。 
































8.1 逻辑 电路 基础 一 一 计算 机 的 基本 构成 


8.1.1 模拟、 数字、 逻辑 的 关系 一 一 细微 之 处 探 真 知 
1. 物理 信和 号、 模拟 信和 号、 数字 信 号 的 转换 


人 类 只 能 感受 物理 信号 ， 人 类 能 看 到 某 个 物体 ， 是 因为 物体 发 出 或 
反射 的 光 进 入 了 人 的 眼睛 ， 人 类 能 听 到 某 种 声音 ， 是 因为 声波 进入 了 人 
的 耳 东 。 而 计算 机 只 能 处 理 电信 号 ， 而 且 是 数字 电 人 信号， 因此， 物理 信 
号 要 被 转换 为 数字 电信 号 ， 经 过 计算 机 处 理 后 ， 再 转换 为 物理 信号 ， 被 
人 类 感知 。 























电 世 界 和 物理 世界 的 关系 
物理 信号 《〈 光 、 化 学 气味 、 震 动 等 ) 通过 传 感 占 可 以 变 成 电信 和 与， 





这 时 的 电信 号 是 以 模拟 信号 的 形式 存在 的 ， 取 值 范围 连续 ， 经 过 AD 转 
换 右 (Analog/Digital〉 就 可 以 转变 为 数字 信和 号。 数字 信号 在 计算 机 中 被 
处 理 后 ， 经 过 D/A 转换 器 (Digital/Analog) 转换 为 模拟 信号 ， 模 拟 信 号 
经 过 执行 器 被 重新 转换 为 物理 信号 ， 就 可 以 被 我 们 所 感知 了 。 


模拟 信号 ”数字 信号 数字 信号 ”模拟 信号 


罗 - 区- 








各 种 信号 的 转换 


AD (Analog/Digital) 转换 器 包含 采样 〈Sampling) 和 量化 








CQuantization ) ， 采 样 是 在 时 间 上 离散 化 ， 量 化 是 在 幅度 上 离散 化 。 在 
圆 点 是 数字 信和 号 。 





下 图 中 ， 曲 线 是 模拟 信号 ， 


OQuantization 





Sampling 


模拟 信号 到 数字 信和 号 的 转换 


数字 信号 只 取 有 限 个 值 ， 如 : 0、1、2、3、4、5、6、7， 计 算 机 中 
的 数字 信号 只 能 取 0 和 1， 因 此 数字 信号 还 要 进行 二 进 制 化 ， 这 个 过 程 叫 
做 编码 ， 如 0 被 编码 为 000b，7 被 编码 为 111。 


2. 逻辑 基础 一 一 假 作 真 时 真 亦 假 


逻辑 这 个 词 用 在 推理 上 ， 表 示 当 一 定 的 条 件 成 立时 ， 茶 
与 假 。 在 逻辑 运算 中 ， 最 基本 的 3 种 运算 是 与 、 或 、 非 ， 就 像 代数 运 算 


中 的 加 、 减 、 乘 、 除 一 样 。 
与 : 如 果 A 和 B 都 为 真 ， 则 结果 为 真 。 
或 : 如 果 A 和 B 有 一 者 为 真 ， 则 结果 为 真 。 
非 : 如 果 输 入 为 真 ， 那 么 输出 就 为 假 ， 反 之 亦 然 。 
如 果 用 1 表示 逻辑 真 ，0 表 示 逻 辑 假 ， 这 3 种 运算 的 输入 、 输 出 关系 


个 命题 的 真 

















可 以 表示 如 下 : 








逻辑 基本 运算 


3. 人 逻辑 与 电路 一 一 用 效 辑 来 抽象 电路 





在 我 们 的 日 常生 活 中 ， 数 字 从 0 数 到 9， 然 后 就 进位 ， 这 是 10 进 制 的 
计数 方式 ， 在 数字 电路 中 ， 我 们 只 取 0 和 1，0 代 表 低 电 平 ，1 代 表 高 电 
平 ， 如 下 图 所 示 ， 电 压 在 0〈 接 地 ) 到 Vi 之 间 代 表 逻 辑 0， 电 压 在 VH 到 
Vpp 之 间 代 表 轴 辑 1。Vi 到 Vy 之 间 为 禁止 区 域 ， 电 压 值 不 应 该 在 这 个 
区 域 ， 否 则 电路 出 现 率 乱 。 

数字 电 平 相对 于 模拟 电 平 具备 更 大 的 噪声 容 限 。 信 号 在 传输 时 ， 不 
可 避免 地 会 引入 较 大 的 噪声 ， 对 于 模拟 信号 ， 如 果 引 入 了 噪声 ， 很 难 完 
全 将 噪声 消除 。 而 对 于 数字 信号 ， 即 使 电压 偏差 一 点 点 ， 只 要 大 于 Vy 
， 就 可 以 认为 是 1， 完 全 没有 任何 的 失真 。 对 于 长 距离 传输 ， 信 和 号 失真 
大 ， 只 要 在 传输 中 间 进 行 信号 的 恢复 即 可 。 

数字 电路 并 不 是 和 模拟 电路 对 立 的 电路 ， 在 数字 电路 中 ， 电 压 的 取 
值 也 是 连续 的 ， 不 过 在 电路 中 认为 高 于 Vy 的 电压 就 是 1:， 因 此 ， 数 字 电 
路 实际 上 是 模拟 电路 的 抽象 ， 正 是 这 种 抽象 简化 了 电路 的 分 析 。 














逻辑 低 





逻辑 1 和 0 
数字 的 1 和 0 对 应 了 逻辑 上 的 真 与 假 ， 因 此 这 种 电路 也 可 以 叫做 逻辑 
电路 ， 可 以 使 用 馆 辑 代数 来 对 电路 进行 分 机 、 优 化 。 
馆 辑 代数 的 基本 运算 是 与 、 或 、 非 ， 相 应 地 ， 远 辑 电 路 的 基本 单元 
是 与 门 、 或 门 、 非 门 。 之 所 以 称 为 门 ， 因 为 电路 的 两 个 取 值 
一 一 “1” 和 “0” 就 好 比 门 的 开 与 关 一 样 。 
门 电路 【 开 / 关 ) 





道 术 ， 先 生 既 然 要 
出 关 隐居 ， 可 否 为 
我 写 些 道理 ， 教 我 
有 所 依循 来 处 事 。” 
于 是 ,老子 与 可 
《道德 经 》 。 





开关 的 例子 
计算 机 由 软件 和 硬件 组 成 ， 硬 件 即 逻辑 电路 ， 既 包含 了 电 ， 也 包含 
了 逻辑 ， 而 软件 只 需要 关注 逻辑 ， 它 们 的 关系 如 下 图 所 示 : 


迪 辑 电 足 





计算 机 、 逻 辑 、 电 的 关系 
逻辑 电路 中 的 逻辑 可 以 有 两 种 解释 : 
(1) 取 值 为 和 1， 运 算 规则 符合 逻辑 运算 法 则 。 
(2) 是 逻辑 上 的 电路 ， 和 具体 的 物理 实现 方式 没有 关系 。 
现在 的 计算 机 是 电子 计算 机 ， 未 来 可 能 还 有 光 计 算 机 、 生 物 计 算 机 
等 ， 在 这 些 计 算 机 中 ， 计 算 机 的 逻辑 结构 与 软件 仍然 可 以 保留 ， 只 是 人 硬 
件 的 实现 方式 不 一 样 。 


8.1.2 组合 逻辑 电路 一 一 万 天 高 楼 平地 起 


大 的 电路 都 是 由 小 的 电路 模块 组 成 ， 组 合 逻 辑 电 路 和 时 序 风 辑 电路 
是 基本 的 两 种 逻辑 电路 组 织 形式 。 组 合 逻 辑 电 路 的 输出 只 和 输入 相关 ， 
输入 发 生变 化 ， 输 出 立即 就 发 生变 化 ， 这 就 是 组 合 馆 辑 电 路 ， 如 下 图 : 











in 组 全 逻辑 电路 out 
组 合 逻辑 电路 
组 合 逻 辑 电路 的 典型 例子 就 是 加 法 器 ，3 十 2 王 5， 每 次 都 会 得 到 固 


定 的 结 

老子 日 :“ 天 下 难事 必 作 于 易 ， 天 下 大 事 必 作 于 细 ”， 万丈 蜗 楼 平地 
起 ， 复 杂 的 系统 也 是 由 简单 的 东西 组 成 的 。 我 们 先 来 看 看 一 些 常 用 的 基 
本 组 合 馆 辑 电路 : 


1 比较 天 





- 进 制 数 





比较 器 

比较 器 的 输入 为 A 和 B 的 二 进 制 码 ， 粗 箭头 表示 多 根 线 ， 细 线 代 表 
一 根 线 ， 每 根 线 的 电 平 为 高 或 者 低 ， 代 表 了 它 是 1 还 是 0， 能 传输 1 bit 的 
数据 。 比 较 两 个 32 bit 数 据 的 大 小 ，A 和 B 各 代表 32 根 线 。 输 出 有 3 根 线 ， 
如 果 A>B， 则 第 1 根 线 呈 高 电 平 ， 其 余 两 根 线 呈 低 电 平 ， 如 果 A=B， 则 
第 2 根 线 呈 高 电 平 ， 其 余 两 根 线 呈 低 电 平 ， 如 果 A<B， 则 第 3 根 线 呈 高 
平 ， 其 余 两 根 线 呈 低 电 平 。 

下、else 让、while 等 语句 需要 比较 大 小 ， 会 使 用 到 比较 器 。 














2 男 中 大 兴 


- 制 数 进 
B 





进位 输入 


加 法 器 
加 法 器 可 能 是 数字 电路 中 最 重要 的 模块 ， 它 是 所 有 运算 的 基础 。 减 
法 、 乘 法 、 除 法 等 ， 都 可 以 由 它 引 申 而 来 。 
32 bit 的 加 法 器 ， 输 入 为 两 个 32 bit 数 据 ， 输 出 也 是 32 bit 数 据 ， 正 如 
同 8 十 8 三 16 会 产生 进位 一 样 ， 二 进 制 加 法 也 会 进位 ， 因 此 有 一 个 进位 输 
出 bit。 





我 们 在 计算 16 十 16 时 ， 会 分 别 计算 个 位 和 十 位 的 加 法 ， 再 看 看 个 位 
有 没有 进位 ， 如 果 有 进位 ， 束 累加 到 十 位 上 ， 所 以 说 ， 多 位 的 加 法 ， 也 
是 通过 简单 的 一 位 加 法 实现 的 ， 二 进 制 也 是 如 此 ，32 ”bit 的 加 法 器 ， 可 
由 两 个 16 bit 的 加 法 露 组 成 ， 进 位 输入 负 贡 多 个 加 法 器 的 级 联 。 


3. 编码 器 





后 呈 高 电 平 鳗 出 3 的 二 进 制 码 
按 后 呈 高 电 平 编码 典 出 3 的 二 进 制 


Be” 


当 我 们 在 键盘 上 敲 一 个 键 时 ， 计 算 机 怎么 知道 我 们 敲 的 是 哪个 键 
呢 ? 

原来 每 个 键 都 连 到 一 个 编码 器 上 ， 在 上 图 中 ， 按 了 3 这 个 键 ， 相 应 
的 连 线 变 成 高 电 平 ， 编 码 器 就 输出 这 个 键 的 编码 。 如 果 有 16 个 按键 ， 那 
么 输出 可 以 用 4 根 线 表示 ， 按 键 0 用 0000 表 示 ， 按 键 1 用 0001 表 示 .……. 

后 端的 计算 机 根据 编码 器 输出 的 编码 就 知道 了 我 们 按 的 是 什么 键 ， 
从 而 进行 相应 的 处 理 。 

对 于 按键 较 少 的 键盘 ， 这 种 电路 结构 足 矣 ， 对 于 按键 较 多 的 键盘 ， 
电路 结构 略微 复杂 ， 不 过 基本 原理 类 似 。 


4. 解码 占 


编码 器 


























二 进 制 码 





解码 器 
有 了 编码 器 ， 那 自然 会 有 解码 器 ， 不 然 怎么 知道 每 个 码 代表 什么 意 


思 呢 ? 


以 一 个 简单 的 数字 显示 屏 为 例 ， 这 个 显示 屏 有 7 段 线 ， 阿 拉 伯 数字 
可 以 由 这 7 段 线 的 亮 与 暗 来 显示 ， 最 右面 两 段 线 亮 ， 其 他 不 亮 ， 显 示 
了 “1” 的 形状 ， 最 右面 两 段 线 和 最 上 面 一 段 线 亮 ， 其 他 不 亮 ， 显 示 
了 “7” 的 形状 .….... 这 7 上段 线 的 亮 与 瞳 ， 是 通过 解码 器 输出 的 7 根 线 分 别 控 
制 的 。 

5. 多 路 复 用 器 

多 路 复 用 器 (multiplexer) 就 是 从 多 个 输入 源 中 选 一 个 输入 传 到 输 
出 端 。 下 图 是 一 个 2 bit 多 路 复 用 器 的 例子 : 











B 根据 S81 、S0 输 
起 出 A 或 者 B 或 
者 C 或 者 D 





Sl SO 
多 路 复 用 器 


输入 是 A、B、C、D， 以 及 选择 信号 S1、S0， 输 出 是 A、B、C、DPD 





中 的 其 中 一 个 ， 至 于 要 输出 哪 一 个 ， 取 决 于 S1 和 S0 的 值 ， 两 个 bit 有 4 个 
值 ， 正 好 对 应 A、B、C、D。 例如 :; 如 果 S1、S0 是 0 、0， 输 出 就 等 于 
A， 如 果 S1、S0 是 0、1， 输 出 就 等 于 B..……… 

多 路 复 用 器 就 类 似 于 分 文 ，S1 和 S0 的 值 就 是 条 件 。 


8.1.3 时序 逻 辑 电路 你 在 我 心中 留 下 了 记忆 

时 序 逻 辑 电路 的 输出 除了 和 当前 的 输入 有 关外 ， 还 和 电路 当前 的 状 
态 相 关 ， 也 就 是 说 ， 它 是 有 记忆 的 ， 或 者 说 组 合 逻 辑 电路 是 无 情 电路 ， 
时 序 逻 辑 电 路 是 有 情 电 路 。 这 也 不 是 信 口 肉 黄 ， 在 机 器 人 相关 的 电影 
中 ， 机 器 人 具备 情感 ， 就 来 源 于 机 右 人 拥有 了 对 人 类 的 记忆 。 





out 





时 序 逻 辑 电路 
时 序 逻 辑 电路 的 典型 例子 就 是 电梯 ， 电 梯 的 升 还 是 降 ， 并 不 仅仅 取 
决 于 当前 时 刻 的 输入 ， 它 还 取决 于 它 现在 的 状态 。 电 梯 在 上 升 过 程 中 ， 
即使 狂 按 最 底层 ， 电 梯 还 是 会 上 。 
一 个 时 序 电路 包括 一 个 组 合 逻 辑 电 路 和 一 个 能 保留 状态 的 模块 ， 这 
个 模块 就 是 寄存 器 。 寄 存 器 是 由 DD 触发 器 实现 的 ， 一 个 DD 触发 器 存储 1 
bit 数 据 ，32 bit 的 寄存 器 就 是 由 32 个 D 触 发 器 再 加 上 外 围 电 路 组 成 的 。 





D 触 发 右 示 例 
D 触 发 右 只 在 每 个 时 钟 周 期 的 上 升 沿 或 者 下 降 沿 触发 (二 选 一 ) ， 
一 个 时 钟 周 期 示例 如 下 图 : 


| 周期 (cycle) | 
一 -| 


上 升 治 F 降 沿 
时 钟 周 期 示例 
下 面 的 线 是 低 电 平 〈0) ， 上 面 的 线 是 高 电 平 1) ， 重 复 的 部 分 被 
称 为 一 个 周期 ， 从 0 跳 变 到 1 被 称 为 上 升 沿 ， 从 1 跳 变 到 0 被 称 为 下 降 沿 。 
以 上 升 沿 触发 的 D 触 发 器 〈flip-flops) 为 例 ，D 为 输入 信号 ，Q 为 输 
出 信号 ，CLK 为 时 钟 ， 在 上 升 沿 时 ，D 的 值 传递 给 了 Q， 其 他 时 刻 ，Q 值 
保持 不 变 。 也 正 是 因为 这 种 保持 的 特性 ，D 触 发 露 能 够 缓存 数据 。 


CLk | 


D 触 发 器 工作 方式 
实际 的 数字 电路 是 组 合 逻 辑 电路 和 时 友好 辑 电路 的 组 合 ， 如 下 图 所 








电路 是 组 合 逻 辑 电路 和 时 序 逻 辑 电路 的 组 合 

每 个 节拍 束 是 一 个 组 合 馆 辑 电路 ， 寄 存 器 缓存 了 每 个 节拍 的 输出 结 
果 ， 在 每 一 个 时 钟 的 上 升 沿 ， 节 拍 1 的 输出 给 了 节拍 2 作为 输入 ， 节 拍 2 
的 输出 给 了 贡 拍 3 作为 输入 .…… 每 个 节 担 的 执行 时 间 要 小 于 时 钟 周 期 ， 
电路 才能 正常 运行 。 汽 车 就 好 比 电信 号 ， 汽 车 在 公路 上 和 奔跑， 相当 于 电 
言 号 在 节拍 电路 中 流动 ， 汽 车 在 遇 到 红 灯 时 需要 等 待 ， 而 电信 号 在 寄存 
需 的 输入 端 ， 也 要 等 上 升 治 到 来 时 ， 才 能 传递 到 下 一 级 节拍 。 

这 种 电路 是 个 天 然 的 流水 线 结构 ， 通 过 划分 节拍 ， 能 提高 电路 的 工 
作 频 率 。 例 如 ， 要 完成 log (|X|) 的 功能 ， 可 以 有 下 面 两 种 电路 : 




















上 时钟 
IGHz 





时 钟 
2GHz 


log (|x|) 的 电路 
上 面 的 电路 由 1 个 组 合 罗 和 辑 电路 完成 ， 下 面 的 电路 将 log (|x|)〉 拆 成 


了 两 个 组 合 馆 辑 电路 。 由 于 下 面 的 电路 每 个 节拍 执行 的 时 间 更 短 ， 因 此 
时 钟 周 期 可 以 减少 ， 频 率 得 以 提升 。 


8.1.4” 微 电子 技术 微 乎 微 平 ， 至 于 无 形 
1. 帅 体 管 一 一 半导体 建筑 用 态 


在 电路 上 ， 有 两 种 重要 的 基本 元 件 : 二 极 管 和 三 极 管 。 

1904 年 ， 爱 迪生 的 助手 、 英 国 科 学 家 弗 莱 明 (John A. Fleming) 发 
明了 二 极 管 。 二 极 管 允 许 电 流 朝 一 个 方向 移动 ， 而 禁止 癌 另 一 个 方 癌 移 
动 ， 就 好 像 单程 车 票 一 样 ， 只 能 从 A 到 B， 不 能 从 B 到 A。 

1907 年 ， 美 国人 Lee DeForest 在 这 种 二 极 管 中 加 入 了 一 个 被 称 为 控 
制 栅 的 第 三 极 ， 这 就 是 三 极 管 。 它 可 以 用 来 实现 开关 电路 〈 用 于 数字 电 
路 ) 、 放 大 电路 《用 于 模拟 电路 ) 。 

他 们 使 用 的 材料 是 真空 管 。 真 空 管 体积 大 ， 发 热 大 ， 著 名 的 ENIAC 
计算 机 就 是 采用 真空 管 ， 占 地 170 平 方 米 ， 差 不 多 是 四 室 两 厅 的 面积 。 
真空 管 严 重 制约 了 电子 计算 机 和 其 他 电子 设备 的 商业 化 进程 。 后 来 ， 人 
们 找到 了 半导体 材料 ， 并 由 此 发 明了 唱 体 管 。 

物质 根据 导电 性 可 以 分 为 3 类 : 良 导 体 、 绝 缘 体 、 半 导体 。 中 文 翻 
译 一 辐 都 是 “ 信 、 达 、 雅 ”俱全 ， 半 导体 这 个 词 翻译 得 很 好 ， 它 只 在 一 个 
方向 上 导电 ， 在 另 一 方向 上 截止 。 下 图 描述 了 绝缘 体 、 良 导体 、 半 导体 
之 间 的 导电 性 差异 : 
































绝缘 体 


半导体 











绝缘 体 、 导 体 、 半 导体 的 导电 性 

半导体 材料 既 不 是 好 的 导体 〈 如 铜 ) ， 也 不 是 好 的 绝缘 体 〈 如 橡 
胶 ) 。 最 稼 见 的 半导体 材料 有 硅 和 钳 ， 它 们 本 喘 不 导电 ， 不 过 在 这 些 材 
料 中 掺 入 其 他 元 素 〈 硼 、 磷 等 ) ， 能 使 它们 在 一 个 方 同 导电 ， 于 是 人 硅 就 
成 了 现在 半导体 最 主要 的 材料 。 铁 析 能 磨 成 绣花 针 ， 而 木 株 则 只 能 磨 成 
牙签 ， 材 料 不 对 ， 再 努力 也 没有 用 ， 可 见 材料 是 多 么 的 重要 啊 。 

当然 ， 绝 缘 体 、 导 体 、 半 导体 的 分 类 也 不 是 绝对 的 ， 在 强 电 流下 ， 
绝缘 性 很 好 的 空气 也 能 被 击 穿 《闪电 ) 。 

1947 和 年， 贝尔 实验 室 的 肖 克 利 〈Shockley) 、 巴 丁 、 布 莱 顿 发 明了 
品 体 管 ， 他 们 利用 半导体 材料 既 有 导电 的 性 质 〈 传 导 ) ， 又 有 绝缘 的 性 
质 〈 阻 导 ) ， 将 它 设 计 成 传导 和 阻 导 兼 而 有 之 的 能 控制 电流 的 电子 元 
件 ， 也 就 是 二 极 管 和 三 极 管 。 铝 体 管 〈transistor) 的 名 称 也 是 来 自 于 传 
导 器 〈transfer) 和 电阻 器 〈resistor) 的 组 合 。 

品 体 管 工业 的 发 展 ， 使 得 电子 产品 和 计算 机 开始 使 用 晶体 管 取代 真 
空 管 ， 体 积 和 功 耗 大 幅 减 小 。 

晶体 管 被 人 誉 为 20 世 纪 最 伟大 的 发 明之 一 ，3 位 研究 人 员 因 此 获得 了 
1956 年 的 诺 贝 尔 物理 学 奖 。 顺 便 提 一 下 ， 巴 丁 在 1972 年 因 超 导 理 论 义 一 
次 获得 了 话 贝 尔 物理 学 奖 。 


2. 集成 电路 一 一 集大成 者 


1958 年 ， 德 州 仪器 〈TI) 的 Jack ”Kilby 将 电路 的 所 有 元 件 都 集成 到 
了 一 块 半导体 之 上 ， 这 就 是 世界 上 第 一 块 集成 电路 ，Jack ”Kilby 靠 此 获 
得 了 2000 年 的 话 贝尔 奖 。 

一 个 人 孤独 的 时 候 ， 常 常 也 是 最 容易 出 成 绩 的 时 候 ，Jack ”Kilby 束 
是 这 样 。Jack Kilby 在 回忆 自己 发 明 集 成 电路 的 经 历时 说 : 

“作为 一 名 新 员工 ， 我 没有 假期 ， 因 此 独自 留 下 来 ..…...”(C 引 自 TI 网 
站 ) 

TI7 月 份 会 给 员工 放假 ， 但 是 Jack Kilby 是 新 员工 ， 没 有 假期 。 就 这 














样 ，Jack Kilby 在 同事 们 都 在 度假 时 ， 一 个 人 在 车 间 完 成 了 集成 电路 的 
发 明 。 看 来 ， 让 新 员工 多 做 些 活 ， 尤 其 是 不 要 给 他 们 放假 ， 是 非常 有 好 
处 的 CA_A) 。 

几 个 月 之 后 ， 仙 童 半导体 的 Robert Noyce (Intel 创 始 人 ) 也 独自 发 
明了 集成 电路 。Kilby 的 集成 电路 ， 元 器 件 做 在 集成 电路 板 上 ， 通 过 外 
部 的 导线 相连 ， 而 Noyce 的 构思 是 在 制造 品 体 管 的 同时 ， 把 连 线 也 制造 
进去 ， 现 在 的 集成 电路 都 是 这 样 制造 的 。 





.计时 
肖 克 利 | 布 莱 顿 Jack Kilby 
晶体 管 和 集成 电路 先驱 

仙 童 半导体 和 德州 仪器 都 为 此 提交 了 专利 ， 德 州 仪 器 先 申请 ， 仙 章 
半导体 后 申请 。 两 家 公司 的 专利 都 得 到 了 批准 ， 不 巧 的 是 ， 仙 重 半 导体 
的 专利 后 然 先 得 到 批准 。 这 以 后 ， 两 家 公司 引发 了 一 场 马 拉 松 式 的 诉 
讼 ， 它 们 都 知道 ， 这 是 个 影响 世界 的 东西 ， 谁 都 不 想 放 弃 。1969 年 ， 由 
于 Noyce 的 互联 技术 和 Kilby 的 不 同 ， 不 存在 侵权 问题 ， 法 院 判 定 两 个 专 
利 都 有 效 ， 这 也 承认 了 集成 电路 是 一 项 同时 发 明 。 

晶体 兴 束 古 集 成 电路 的 建筑 用 砖 ， 集 成 电路 制程 工艺 的 发 展 ， 使 得 
品 体 管 越 来 越 小 ， 品 体 管 的 集成 度 越 来 越 高 ， 品 体 管 的 工作 速度 也 越 来 
武 快 ， 如 下 图 所 示 。 























集成 电路 工艺 进步 


心 者 ， 国 之 大 事 ， 不 可 不 察 也 


连 百 亿 品 体 管 ， 战 必 胜 ， 攻 必死 
几 万 亿 个 游离 的 原子 ， 以 某 种 方式 聚集 在 一 起 ， 以 复杂 和 奇妙 的 方 
式 构 成 了 人 ， 几 十 亿 个 晶体 管 ， 也 以 同样 复杂 奇妙 的 方式 组 织 在 一 起 ， 
构成 了 处 理 器 。 每 个 原子 都 是 没有 生命 的 ， 可 是 它们 聚集 在 一 起 却 能 组 
成 生命 ， 每 个 晶体 管 也 只 是 个 电路 开关 ， 可 是 它们 组 成 的 处 理 器 却 带 给 
我 们 如 此 丰富 的 应 用 体验 ， 这 吏 是 复杂 系统 独特 的 魅力 。 
用 几 十 亿 个 晶体 管 搭建 成 一 个 处 理 器 绝对 是 一 项 非常 复杂 的 工程 ， 
我 们 首先 看 看 人 类 管理 复杂 事物 的 方式 对 我 们 的 设计 有 什么 启发。 


8.2.1 人 类 是 怎么 管理 复杂 事物 的 


人 类 社会 就 是 一 个 很 复杂 的 系统 ， 人 们 在 解决 复杂 问题 时 ， 也 总 结 
出 了 一 些 和 常用 的 方法 ， 通 党 有 四 招 : 抽象 、 分 层 、 规 整 化 、 模 块 化 。 


8.2 这 片 设计 



































人 类 管理 复杂 事物 的 四 招 





人 类 解决 复杂 问题 的 四 招 


1. 抽象 


抽象 和 具体 是 反义词 ， 抽 象 是 为 了 找 出 共性 ， 屏 蔽 不 重要 的 细 证 。 
人 的 大 脑 处 理 能 力 有 限 ， 很 难 既 在 细节 上 有 细致 入 微 的 观察 ， 又 在 全 局 


上 有 高 屋 建 领 的 掌控 。 抽 象 使 得 人 们 能 够 忽略 内 部 细节 ， 对 整个 系统 有 
更 深刻 的 把 握 。“ 不 管 黑 猫 白 猫 ， 抓 住 老 鼠 就 是 好 猫 。” 这 人 句 话 就 是 一 个 
抽象 ， 黑 猫 和 白猪 的 共性 是 猫 ， 是 抓 老鼠 ， 至 于 什么 颜色 并 不 重要 。 

数字 电路 就 是 模拟 电路 的 抽象 。 电 路 都 是 模拟 的 ， 电 压 的 值 也 是 连 
续 变 化 的 ， 通 常 认 为 是 SV 的 电压 ， 实 际 上 有 时 可 能 是 5.1V， 有 时 可 能 
是 4.9V。 数 字 电 路 是 人 们 抽象 出 来 便于 设计 的 一 种 形式 ， 数 字 电 路 设计 
人 员 不 需要 关心 电压 大 于 3.3V 是 逻辑 1 还 是 大 于 1.2V 是 逻辑 1， 对 他 们 来 
说 ， 数 字 电 路 输入 输出 就 只 有 0 和 1。0 和 1 使 得 电路 元 件 间 的 关系 变 得 非 
党 简单， 设计 人 员 不 再 需要 根据 每 个 元 件 的 电路 特性 写 出 电压 电流 输入 
输出 方程 ， 数 字 电 路 的 设计 得 以 大 幅 简 化 。 

计算 机 的 逻辑 设计 也 是 一 种 抽象 ， 指 令 集 、 微 架构 、Cache 设 计 
等 ， 都 是 与 具体 实现 无 关 的 ， 不 管 是 电子 计算 机 ， 还 是 光 计 算 机 、 量 子 
计算 机 、 生 物 计算 机 ， 都 能 够 使 用 ， 只 是 实现 的 方式 不 同 罢 了 。 



























逻辑 设计 
抽象 


电子 计算 机 光 计 算 机 量子 计算 机 生物 计算 机 


计算 机 的 抽象 





不 管 是 TCP/IP 的 网 络 协议 ， 还 是 政府 的 行政 区 域 划 分 ， 还 是 公司 的 
组 织 结 构 ， 都 使 用 了 分 层 的 思想 。 

分 层 使 得 每 层 各 司 其 职 ， 只 需要 关注 与 上 下 层 的 接口 ， 不 需要 关注 
其 他 层 的 实现 细 市 。 

对 于 处 理 器 设计 ， 可 以 分 为 系统 层 、 逻 辑 单 元 层 、 逻 辑 门 层 、 唱 体 
党 电路 层 。 每 层 的 设计 人 员 只 需要 关注 目 己 这 层 应 该 关注 的 内 容 ， 整 个 
系统 的 设计 更 清晰 ， 更 有 条 理 。 

















逻辑 单元 








品 体 管 电路 





处 理 器 集成 电路 设计 分 层 

系统 层 关 注 处 理 占 的 系统 划分 ， 如 处 理 器 包含 几 个 CPU 核 、Cache 
层次 与 容量 、 哪 些 MO 口 等 。 

逻辑 单元 层 关注 更 下 一 层 的 设计 ， 如 CPU 核 的 微 架 构 、Cache 的 内 
部 结构 、Cache 一 致 性 等 。 

逻辑 门 层 关注 逻辑 电路 设计 ， 这 一 层 不 需要 关心 CPU 微 架 构 的 原 
理 ， 只 需要 用 逻辑 门 电路 实现 这 个 结构 即 可 。 

晶体 管 电路 层 将 逻辑 电路 翻译 成 晶体 管 电路 。 


3. 规整 化 


里 然 有 的 人 身高 1.7 米 ， 有 的 人 身高 1.68 米 ， 有 的 人 号 高 1.72 米 ， 但 
是 绝 大 多 数 的 衣服 尺寸 都 是 按照 1.65 米 ，1.7 米 ，1.75 米 ..….... 这 些 尺 寸 来 
做 的 ， 如 果 按 照 1.65 米 、1.66 米 、1.67 米 ..….... 这 样 做 衣服 ， 成 本 就 太 高 
了 ， 这 就 是 规整 化 ， 规 整 化 有 利于 批量 复制 。 

处 理 器 IP 公 司 在 给 客户 提供 处 理 器 IP 时 ， 也 是 固定 几 种 基本 配置 让 
客户 选择 的 ， 不 可 能 完全 按照 客户 的 需求 来 设计 ， 如 Cache 大 小 设置 ， 
IP 公 司 会 提供 32K、64K 这 样 的 配置 ， 但 是 却 可 能 不 会 提供 48K 这 样 的 配 


























4. 模块 化 


PC 由 一 系列 标准 的 模块 组 成 : 主板、 处理 占 、 内 存 、 人 硬盘 、 光 
驱 、 键 盘 、 鼠 标 等 ， 每 个 模块 非常 独立 ， 都 采用 标准 的 接口 ， 组 装 一 人 台 
PC 束 好 像 小 孩 玩 积木 游戏 一 样 简单 。 

同样 的 思想 也 被 应 用 在 软件 开发 、 集 成 电路 设计 中 ， 软 件 中 的 函数 
就 是 模块 ， 集 成 电路 中 的 耳 核 就 是 模块 。 





模块 化 开发 
模块 化 使 得 我 们 在 使 用 模块 时 ， 只 要 关注 模块 的 功能 和 接口 ， 而 不 





需要 关注 它 的 实现 方式 ， 模 块 可 以 重用 ， 也 能 很 好 地 被 蔡 换 ， 鼠 标 坏 了 
就 换 鼠 标 ， 键 盘 坏 了 就 换 键 盘 ， 不 需要 更 换 其 他 的 模块 。 

模块 化 设计 时 ， 模 英和 骨 应 该 高 内 聚 ， 模 块 只 专注 于 做 一 件 事情 ， 模 
块 间 应 该 低 耦 合 ， 模 块 与 模块 间 的 通信 应 尽量 少 。 简 而 言 之 ， 套 用 一 名 
广告 词 ， 至 至 越 独 立 ， 妈 妈 越 放心 ， 模 块 越 独立 ， 我 们 更 放心 。 


低 耦 人 台 


模块 模块 2 








模块 化 设计 要 求 


8.2.2 ”芯片 设计 流程 


处 理 嚣 流水线 可 以 分 为 前 端 和 后 端 ， 心 厂 设 计 也 可 以 分 为 前 端 和 后 
端 。 前 端 负责 逻辑 设计 ， 输 出 门 级 网 表 (netlist) ， 后 端 进 行 物 理 设 
计 ， 输 出 版 图 (layout) ， 下 一 步 承 是 芯片 制造 了 ， 这 个 过 程 俗称 为 流 
片 (tapeout) 。 

为 什么 叫 tapeout， 这 里 面 也 有 故事 ， 版 图 文件 很 大 ， 以 前 都 是 用 磁 
带 (tape) 存储 ， 送 到 工厂 去 生产 ， 所 以 叫 tapeout， 后 来 这 个 词 一 直 被 
沿用 到 现在 。 

蕊 片 设计 流程 图 如 下 : 


前 器 


14- ‘PL. #4 LA 
心 片 设计 心 片 制造 








芯片 设计 与 制造 流程 

如 果 有 面试 官 问 某 某 东西 的 设计 流程 ， 第 一 个 步骤 回答 “系统 设 
计 ” 谁 不 会 出 错 ， 这 简直 是 一 个 万 能 答案 ， 因 为 任何 设计 都 可 以 采用 从 
上 到 下 逐步 细 化 的 过 程 。 系 统 设计 完成 设计 的 建 模 与 仿真 、 模 块 划分 
等 ， 确 你 设计 思路 正确 ， 后 面 束 是 设计 的 具体 实现 过 程 。 


8.2.3 ”人 硬件 描述 语言 一 一 软 人 硬 不 分 

1. 电子 设计 上 自动 化 

计算 机 辅助 设计 〈Computer-aided Design，CAD) 已 经 融入 到 各 行 
各 业 中 ， 制 造 一 双 鞋 、 一 辆 赛车 、 一 幅 广 告 等 ， 都 可 以 通过 计算 机 来 设 
计 ， 而 计算 机 本 映 的 设计 ， 无 论 是 处 理 器 、 存 储 器 电路 ， 还 是 计算 机 结 


构 、 外 观 等 ， 也 都 是 在 计算 机 上 进行 的 ， 于 是 就 出 现 了 用 计算 机 来 辅助 
设计 计算 机 的 有 趣 现象 。 





ge i 
人 I 样 ， 你 可 


是 我 设计 的 








用 计算 机 来 辅助 设计 计算 机 
EDA 是 电子 设计 自动 化 (Electronic Design Automation) 的 缩写 ， 
是 电路 领域 的 计算 机 辅助 设计 。 设 计 者 能 在 EDA 软 件 平台 上 完成 集成 电 
路 的 全 套 设计 ， 直 至 将 设计 交 给 工厂 流 片 。 
Cadence 和 Synopsys 公 司 提 供 心 厂 设 计 各 个 阶段 的 EDA 工 具 ， 早 期 
Synopsys 的 前 端 工 具 更 有 优势 ，Cadence 的 后 端 工具 更 有 优势 ， 现 在 它 
们 的 差距 不 大 。 


2. HDL 基础 


设计 一 个 电路 ， 可 以 用 画 电路 图 的 方式 实现 ， 如 下 图 : 





电路 图 
儿 百 、 儿 千 个 元 件 的 电路 图 可 以 手工 画 ， 可 是 一 个 心 片 能 包含 儿 亿 








其 至 几 十 亿 个 晶体 管 ， 靠 画 是 不 可 能 画 出 来 的 ， 好 在 人 们 开发 了 人 硬件 摘 
述 语言 (Hardware Description Language，HDL ) ， 使 用 编程 的 方式 来 开 
发 集成 电路 。 

业界 主要 有 两 种 硬件 描述 语言 : VHDL 和 Verilog， 其 中 Verilog 使 用 


较 多 。 硬 件 描述 语言 主要 用 于 数字 电路 的 建 模 ， 建 模 的 层次 可 以 从 高 到 
低 ， 分 成 4 个 层级 : 




















行为 级 描述 电路 的 功能 ，RTL 级 描述 电路 的 结构 ， 门 级 描述 门 这 一 
级 电路 的 结构 ， 电 路 级 描述 晶体 管 电路 的 结构 。 

行为 级 描述 不 关心 电路 的 具体 结构 ， 只 关注 算法 ， 主 要 用 于 建 模 和 
仿真 ， 不 能 直接 综 合 为 具体 电路 。 集 成 电路 的 设计 ， 主 要 采用 RTL 级 的 
建 模 。 

前 面 已 经 知道 ， 风 辑 电路 的 基本 结构 如 下 图 : 











组 全 
电路 


时 钟 


这 种 电路 可 以 理解 为 信号 在 寄存 器 间 传 输 ， 因 此 也 称 为 寄存 器 传输 
级 (Register Transfer Level，RTL) 电路 。 这 种 电路 可 以 使 用 Verilog 语 
言 来 实现 ， 综 合 出 具体 的 电路 。 


module half clk(clr,clk,q); 
input cilk,clr; 

output {3:0]g; 

reg [3:0]q; 


always @(negedge clk or posedge clr) 
begin 
if(clr)  q=0; 
else q=q+]1; 
end 
endmodule 








Verilog RTL 级 电路 示例 
8.2.4 ”逻辑 综合 


在 软件 开发 中 ，C 源 代码 需要 使 用 编译 器 编译 成 处 理 器 能 识别 的 二 
进 制 码 ， 在 集成 电路 开发 中 ，Verilog 源 代码 也 需要 被 编译 成 具体 的 电 
路 ， 只 不 过 这 里 的 编译 被 称 为 综合 (synthesis)， 如 下 图 所 示 : 

软件 开发 系统 提供 了 库 ， 人 硬件 开发 系统 同样 也 提供 了 库 ， 不 需要 设 
计 人 员 什 么 都 从 雯 开始 设计 。 

约束 





Verilog 源 文件 





逻辑 综合 


在 软件 开发 中 ， 编 译 器 并 不 仅仅 只 做 简单 的 翻译 ， 它 会 对 软件 进行 
优化 ， 在 硬件 开发 中 ， 综 合 器 也 是 如 此 ， 它 会 对 电路 进行 优化 。 编 译 器 
有 编译 选项 让 程序 员 在 存储 空间 和 速度 上 进行 权衡 ， 综 合 器 也 有 设计 约 
束 让 设计 人 员 在 电路 面积 和 速度 上 进行 权衡 。 

在 软件 编译 中 ， 函 数 内 联 将 函数 体 复制 到 函数 的 调用 处 ， 增 大 了 代 





人 码 空间 ， 减 少 了 执行 时 间 。 在 硬件 综合 时 ， 综 合 器 也 会 进行 类 似 的 操 
作 。 对 于 同一 段 电 路 ， 综 合 出 的 电路 面积 小 ， 通 常 速 有 度 慢 ， 综 合 出 的 电 
路 面积 大 ， 通 常 速度 快 ， 如 下 图 所 示 : 








速度 





综合 的 面积 和 速度 权衡 

HDL 代 码 综合 出 来 的 文件 被 称 为 门 级 网 表 (Cnetlist) ， 它 描述 了 电 
路 的 门 级 结构 ， 门 级 电路 以 与 门 、 非 门 等 为 基础 。 
8.2.5 ” 便 件 描述 语言 与 软件 摘 述 语言 的 差别 

1. 指令 与 电路 

软件 描述 语言 描述 的 是 处 理 器 指令 ， 硬 件 描述 语言 描述 的 是 硬件 电 
路 。 同 样 是 z 二 x 十 y 这 条 语句 ， 在 软件 描述 语言 中 编译 出 来 是 指令 ， 在 
人 硬件 描述 语言 中 综合 出 来 是 电路 。 


| 十 一 - Z 


加 法 电路 示例 
在 软件 中 ， 如 宋 修 改 x 的 值 ， 只 要 不 调用 这 条 语句 ，z 的 值 是 不 会 被 
修改 的 。 而 在 硬件 电路 中 ， 当 x 被 修改 时 ，z 也 立即 跟着 改变 ， 这 就 是 软 
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件 描 述 语言 和 硬件 描述 语言 最 典型 的 区 别 。 
2. 数据 通道 和 控制 通道 


处 理 器 内 核 可 分 为 数据 通过 首 和 控制 通道 ， 数 据 通道 是 指令 的 计算 部 
分 (ALU 模块 )， 控 制 通道 控制 指令 的 计算 〈 取 指 、 译 人 码 等 模块 〉。 


输入 数据 输出 数据 








数据 通道 
控制 通道 
处 理 器 的 数据 通道 和 控制 通道 
在 软件 描述 语言 中 ， 程 序 员 只 需要 关心 数据 通道 ， 即 输入 是 什么 、 
进行 什么 运算 、 输 出 是 什么 。 在 硬件 描述 语言 中 ， 设 计 人 员 除 了 关心 数 
据 通 道 ， 还 要 关心 控制 通道 ， 也 即 控制 指令 的 执行 
3. 串 行 与 并 行 
同样 是 两 条 语句 : 






控制 命令 





























假设 处 理 器 中 只 有 一 个 加 法 器 ， 如 采 是 软件 描述 
依次 使 用 处 理 器 的 一 个 加 法 器 执行 ， 而 如 果 是 人 硬件 摘 
成 两 个 加 法 堪 ， 并 行 处 理 。 


语言 ， 这 两 条 语句 
述 语言 ， 则 直接 生 


4. 时 序 











在 软件 描述 语言 中 ， 程 序 员 只 需要 关心 指令 的 先后 顺序 ， 驳 完成 什 
么 、 后 完成 什么 ， 不 需要 关心 处 理 器 硬件 电路 的 执行 细节 ， 而 在 硬件 描 
述 语言 中 ， 设 计 人 员 需 要 知道 电路 在 每 个 时 钟 的 执行 状态 。 


8.2.6 ”物理 设计 


物理 设计 也 即 后 端 设计 ， 它 将 前 端 设计 产生 的 门 级 网 表 通 过 EDA 工 
上 其 进行 布局 布线 和 物理 验证 ， 并 最 终 产 生 供 制造 用 的 GDS 开 数 据 文 
件 。 网 表 (netlist〉 描述 了 集成 电路 的 逻辑 结构 ，GDS 工 文 件 摘 述 了 集 
成 电路 的 物理 结构 。 

物理 设计 可 以 分 成 3 个 大 的 步骤 :Floorplanning〈 布 图 规划 ) 、 
Placement (布局 ) 、Routing (布线 ) ， 其 中 Floorplanning 和 Placement 
通常 没有 太 严 格 的 分 开 。 

设计 房子 ， 首 先 划 定 一 个 长 方形 面积 ， 然 后 规划 房子 的 布局 ， 哪 里 
是 卧室 、 哪 里 是 厨房 、 哪 里 是 车 库 每， 而且 各 个 房间 的 摆 放 位 置 是 可 以 
变化 的 ， 在 总 面积 不 变 的 条 件 下 ， 会 有 多 种 布局 方式 。 

Floorplan 字 面 意思 是 建筑 设计 的 平面 图 ， 也 就 是 从 上 面 岛 睹 到 的 建 
筑 结构 图 。 

集成 电路 物理 设计 是 在 一 块 蕊 片上 完成 电路 的 布局 ， 它 和 房子 布局 
一 样 ，Floorplanning 计 算出 最 佳 的 布局 方式 ， 它 和 Placement 一 起 完成 电 
路 模块 的 布局 ，Routing 就 是 布线 ， 好 比 布置 建筑 物 中 的 电线 、 网 线 


有 
等 。 














建筑 结构 图 示例 


物理 设计 的 输出 是 版 图 文件 ， 以 GDS II (Graphical Design 
System) 格式 存储 。 和 国家 的 地 理 厂 图 一 样 ， 半 导体 心 片 版 图 摘 述 了 电 
路 的 拓扑 结构 和 元 件 的 特征 ， 它 是 交 给 芯片 制造 三 作为 指导 生产 电路 的 
图 案 。 集 成 电路 的 基本 元 件 和 连 线 都 是 在 硅 片 上 一 层 一 层 的 蚀刻 出 来 ， 
版 图 描述 了 电路 结构 ， 也 就 描述 了 哪些 地 方 该 腐蚀 ， 哪 些 地 方 该 保留 。 





版 图 一 一 乱 花 渐 欲 迷人 眼 

















8.3 芯片 制造 
8.3.1 探索 微观 世界 


看 到 制造 ， 人 们 就 会 想起 伴 果 和 富士 康 ， 富 士 康 代 工 苹果 的 
iphone， 利 润 都 被 苹果 拿 走 了 ， 富 士 康 只 获得 非常 少 的 一 部 分 辛苦 费 。 

通 闸 人 们 理解 制造 技术 含量 低 ， 价 值 低 。 不 过 ， 精 密 制 造 却 是 相当 
有 技术 含量 的 ， 并 且 价 值 很 高 ， 美 国 、 日 本 在 这 些 方面 都 非常 有 实力 ， 
与 其 说 中 国 古 个 制造 大 国 ， 还 不 如 说 中 国 是 个 加 工大 国 。 

心 片 制造 的 工艺 相当 精密 ， 已 经 和 分 子 相 差 不 远 ， 相 当 有 技术 含 
量 ， 而 且 投 资 巨 大 ， 烧 得 起 钱 玩 这 个 的 公司 并 不 多 。 不 少 传统 半导体 公 
司 也 都 逐步 地 转 问 轻 品 圆 策略 ， 寻 求 和 代 工 三 合作 ， 目 己 只 设计 忌 片 ， 
心 片 制造 外 包 给 代 工 三 ， 世 界 上 最 大 的 芯片 制造 代 工 三 是 台积电 《人 台湾 
积 体 电 路 制造 股份 有 限 公 司 ， 人 台湾 将 集成 电路 称 为 积 体 电 路 ) 。 

心 片 制造 的 工艺 到 底 有 多 么 精细 呢 ? 下 图 做 出 了 一 个 比较 : 
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微观 世界 


心 片 制造 采用 的 主要 原材料 是 硅 ， 硅 是 继 氧 之 后 地 党 上 第 二 丰富 的 


化 学 物质 。 硅 和 和 氧 组 成 了 地 球 上 最 不 值钱 的 沙子 (SiO, ) 
的 硅 就 是 从 这 些 沙 子 中 提炼 出 来 的 ， 所 以 说 ， 


成 金 的 行业 。 





。 心 片 所 使 用 
半导体 行业 真 可 谓 是 点 沙 








沙子 不 仅 可 以 淘金 ， 加 工 成 芯片 和 金子 一 样 贵 


半导体 制造 





公司 ， 使 用 半导体 材料 和 半导体 生产 设备 ， 将 心 片 设计 


公司 设计 出 来 的 电路 转换 为 攻 片 ， 如 下 图 所 示 : 


丛 
em 
& 


芯片 制造 

在 芯片 设计 领域 ， 美 国 占据 优势 ，Intel、IBM、TI、 高 通 、 苹 果 、 
思科 等 公司 ， 英 不 精通 于 芯片 设计 。 在 芯片 制造 领域 ，Intel、 三 星 、 台 
积 电 分 别 在 处 理 器 、 存 储 器 、 代 工 领域 处 于 领先 ，IBM 的 芯片 制造 技术 
也 比较 先进 ， 经 常 将 技术 转让 给 其 他 的 代 工厂 。 

资源 匮乏 的 日 本 非常 注重 半导体 工业 ， 早 在 20 世 纪 70 年 代 日 本 就 开 
始 大 规模 布局 半导体 领域 ， 虽 说 现在 日 本 的 芯片 设计 与 制造 有 所 衰退 ， 
不 过 日 本 还 是 占据 了 全 球 37% 的 半导体 生产 设备 ， 以 及 66% 的 半导体 材 
料 供应 。 


8.3.2 ”芯片 制造 流程 





























心 片 制造 成 本 非常 之 高 ， 每 一 步 都 需要 相当 精密 的 工具 ， 在 相当 严 
车 的 环境 下 施行 ， 下 面 是 必 片 制造 的 基本 流程 。 

心 厂 制造 过 程 可 以 被 分 为 前 端 和 后 端 ， 前 端 负责 唱 圆 《〈wafer) 的 
处 理 ， 包 括 晶 圆 的 加 工 (wafer fabrication ) 与 测试 (wafer test) ， 后 端 
负责 心 片 的 加 工 ， 包 括 品 圆 切 割 成 唱片 〈die) 、 芯 片 封装 与 测试 ，Intel 
大 连 工厂 负责 前 端 ，Intel 成 都 工厂 负责 后 端 ， 它 们 生产 65nm 工 艺 的 蕊 
组 。 前 端 工厂 也 叫 品 圆 广 〈fab) ， 后 端 工 三 也 叫 封装 测试 广 〈assembly 
and test) 。 





蜡 圆 (wafer ) 


> 集成 电路 


是 < 和 a 和 
蜡 圆 加 工 “ 蕙 已 we 版 图 


形成 晶体 管 
形成 布 线 掩 脐 








(die) 
封装 
me 试 
出 售 的 芯片 
芯片 制造 基本 流程 
1， 名 区 


厨师 炒菜 ， 总 是 一 次 炒 多 人 份 的 ， 忌 片 制造 也 一 样 ， 也 是 一 次 制造 
多 块 必 族 ， 品 圆 是 必 片 电路 的 载体 ， 一 块 品 圆 可 以 做 出 多 片尾 片 。 之 所 
以 称 它 为 品 圆 ， 是 因为 它 是 一 个 硅 唱 体 ， 并 且 是 一 个 圆 盘 。 

常见 的 唱 圆 直径 大 小 为 300mm、200mm、150mm， 现 在 也 开始 出 现 
更 大 的 品 圆 ， 唱 圆 越 大 ， 一 块 品 圆 上 能 做 出 的 芯片 就 越 多 。Intel 大 连 品 
圆 广 所 使 用 的 唱 圆 为 300mm， 也 就 比 一 本 书 稍 大 一 点 ， 通 稼 能 够 生产 出 
几 百 片 蕊 片 。 

















晶 圆 大 小 

晶 贺 来 源 于 沙子 ， 沙 子 的 主要 成 分 是 二 氧化 硅 (SiO, ) ， 品 圆 所 使 
用 的 单 晶 人 硅 要 求 纯 度 非常 之 高 ， 通 常 要 达到 99.9999%。 通 过 复杂 的 化 
学 、 物 理 方法 ， 得 到 可 用 于 半导体 制造 质量 的 硅 锭 (silicon ingot) ， 硅 
锭 经 切割 得 到 品 圆 。 














硅 锭 切 钊 和 切 黄瓜 类 比 
品 圆 非 芝 海 ， 人 至 少 比 黄瓜 面膜 薄 多 了 ，300mm 品 圆 的 悍 度 大 概 为 





0.775mm 左 右 ， 不 同 尺 寸 的 晶 圆 ， 厚 度 也 不 一 样 。 
品 圆 上 三 自 身 不 生产 品 圆 ， 大 部 分 品 圆 材料 来 自 于 日 本 ，2011 年 3 月 
日 本 一 个 小 地 方 的 地 震 ， 就 波及 全 球 25% 的 品 圆 供应 。 


2. 清净 室 一 一 纵使 无 一 物 ， 还 是 有 尘埃 


禅宗 大 师 茵 能 兄 第 曾 写 过 一 首 名 诗 : 

“车 提 本 无 树 ， 明 镜 亦 非 台 ， 本 来 无 一 物 ， 何 处 铬 尘埃 ”。 

这 人 句 话 如 果 用 来 形容 人 的 心境 ， 意 境 是 相当 的 高 ， 不 过 大 自然 却 没 
有 这 个 觉悟 。 空 气 中 漂浮 着 大 量 的 悬浮 物 ， 如 灰尘 、 杂 质 等 ， 虽 然 人 们 
看 不 见 ， 但 是 它们 确实 存在 着 。 所 以 我 们 可 以 用 这 样 一 句 话 来 摘 述 自己 
生活 的 空间 : 

“纵使 无 一 物 ， 还 是 有 人 尘埃 ”。 

在 心 片 制造 过 程 中 ， 空 气 纯度 要 求 非常 高 ， 如 果 有 粒子 附 在 心 
上 ， 就 有 可 能 导致 必 片 出 现 瑕 间 ， 从 而 不 能 使 用 ， 心 斤 的 制造 过 程 需要 
在 洁净 室 (clean room) 中 进行 。 

洁净 室 最 早 来 源 于 医院 的 手术 室 ， 为 了 防止 病人 伤口 感染 ， 因 此 对 
房间 的 空气 做 了 净化 。 百 分 之 百 的 洁净 是 很 难 达 到 的 ， 美 国联 邦 标准 
209B 将 洁净 室 分 成 6 个 等 级 ，CLASS 1、CLASS 10、CLASS 100、 
CLASS 1000、CLASS 10K 和 CLASS 100K，CLASS 10 是 指 每 立方 英尺 
内 大 于 等 于 0.5h 之 微 侍 不 超过 10 个 ， 大 于 等 于 5h 之 微 侍 数 为 0， 半 导体 
工厂 的 洁净 室 ， 比 医院 的 手术 室 还 要 干净 1000 倍 《〈 引 自 IPntel] 宣 传 片 ) 。 








3. 此 贺 加工 (wafer fabrication ) 


Fabrication 为 装配 、 制 造 之 意 ，Fab 是 它 的 缩写 ， 通 常 也 用 Fab 来 代 
品 圆 片 ，Fabless 表 示 没 有 唱 圆 上 三 的 半导体 设计 公司 ， 如 Xilinx、 高 通 


和 骨 鞍 











人 类 文明 是 从 “ 刻 ? 开 始 的 ， 在 远古 时 代 ， 文 字 被 刻 在 龟 壳 、 石 头 
上 ， 后 人 由 此 而 得 知 远古 发 生 的 事情 ， 现 在 ， 人 们 将 集成 电路 刻 在 硅 片 
只 是 这 个 纪 用 于 工 是 个 可 能 完成 的 ， 用 机 械 刻 也 达 不 到 精度 要 求 ， 





刻 甲 骨 文 与 刻 集成 电路 
集成 电路 版 图 首先 被 印 在 掩 膜 上 ， 经 过 复杂 的 光 刻 、 挫 杂 、 腐 刨 等 
步骤 ， 在 品 圆 上 形成 晶体 管 ， 再 注入 铀 粒子 ， 形 成 导线 ， 这 样 集成 电路 
就 完成 了 。 
品 圆 上 的 集成 电路 也 是 一 层 一 层 的 ， 驶 像 建 筑 物 一 样 ， 如 下 图 所 


外: 











晶 圆 上 的 集成 电路 结构 示意 
由 于 唱 圆 加 工会 用 到 很 多 具有 腐蚀 性 的 化 学 材料 ， 因 此 污染 控制 也 
非常 重要 。 











4， 唱 圆 测 试 (wafer testing ) 


一 个 唱 圆 会 包含 很 多 个 方形 的 晶片 ， 也 叫 晶 粒 (die》， 每 个 晶片 
包含 独立 的 集成 电路 ， 它 将 被 封 效 后 成 为 独立 的 心 片 。 

晶 加 加工 后 ， 可 能 会 在 某 些 地 方 出 现 瑕 六 ， 导 致 晶片 损坏 ， 因 此 蝇 
加 在 出 三 前 要 先 经 过 测试 ， 检 测 出 好 die 和 坏 die。 
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唱 圆 上 的 唱 粒 
在 上 图 的 唱 圆 上 ， 有 38 个 晶片， 其 中 由 于 一 些 问 题 ， 出 现 了 一 块 缺 
陷 ， 有 4 块 唱片 是 无 效 的 ， 唱 片 的 成 品 率 为 34/38 王 89%6 。 
5. 唱片 切割 我 切 ， 我 切 ， 我 切切 
加 工 后 的 唱 圆 会 被 送 到 后 端的 封装 测试 三 进行 后 期 处 理 ， 后 端 将 唱 
圆 进行 切片 ， 得 到 唱片 。 














6. 封装 一 好 马 配 好 教 


硅 片 非常 小 ， 且 软 ， 也 很 容易 坏 ， 需 要 把 它 固 定 、 封 好 ， 封 装 可 以 
防止 已 片 受 到 物理 损坏 ， 也 能 将 尾 片 产生 的 热量 扩散 到 封装 更 大 的 面积 
上 以 便 冷却 。 

封 疼 的 另 一 个 作用 就 是 引出 管 脚 ， 忌 片 外 围 的 金属 MO 引 脚 非常 
小 ， 将 它 引 出 到 封装 上 较 大 的 引 脚 ， 以 便于 心 片 间 的 连接 ， 这 样 束 得 到 
可 以 使 用 的 芯片 了 。 





封装 

早期 很 多 多 核 处 理 器 ， 就 是 将 多 个 处 理 嚣 晶片 封装 在 一 个 蕊 片 内 ， 
后 面 的 多 核 处 理 器 ， 基 本 上 都 是 一 个 处 理 器 晶片 包含 多 个 处 理 器 内 核 。 
如 下 图 : 


芯片 封装 


处 理 器 | | 处 理 器 
剖 片 蝇 片 


多 核 (多 die) 








7. Logo 


心 片 制作 的 最 后 一 步 是 打 logo。 





打 logo 


打 logo 绝 对 是 所 有 步骤 中 最 重要 的 一 步 ， 如 果 把 Intel 的 亿 片 打上 了 
AID 的 logo， 那 Intel 要 气 死 。 这 样 说 可 不 是 空 六 来 风 ， 因 为 一 个 中 国人 








就 曾经 做 过 这 样 的 事 ， 这 就 是 大 名 思 蜀 的 “ 汉 心 ”事件 。 

膝 皮 是 Photoshop 的 专业 技术 ， 用 来 光滑 人 脸 。 技 术 都 是 相通 的 ， 
磨 皮 也 能 用 在 芯片 外 观 上 。 这 个 中 国人 买 了 几 块 Freescale 的 DSP 心 片 ， 
请 人 将 仿 片 上 的 logo 磨 皮 ， 然 后 打上 自己 的 logo， 这 样 代表 “世界 先进 水 


平 ” 的 国产 DSP 世 片 就 征 生 了 。 





仅 修 改 logo 是 远 远 不 够 的 


网 友 点 评 


楼 主 很 强 很 油 沫 :! 

robotbob 

顶 起 ， 很 直观 ， 很 具体 ， 楼 主 快 点 。 

一 一 纪 xky 

LZ 这 样 的 高 人 应 该 推荐 到 高 校 做 教授 ， 那 将 是 民族 之 幸 哦 。 与 的 理论 
透彻 清晰 ， 文 字 通 俗 简练 ， 语 言 风 趣 形象 ， 好 ! 

shore70 

希望 中 国 多 点 像 楼 主 这 样 的 人 才 ! 

davidchan110 

楼 主 真 强悍 ， 讲 解 通俗 易 懂 ， 顶 一 下 ! 

一 一 汉江 之 畔 

真 的 讲 的 好 ， 让 我 这 个 处 理 器 的 门外汉 也 产生 了 兴趣 ! 

tian mengguang 

要 是 做 总 的 软件 架构 工作 ， 你 一 定 能 成 为 大 师 级 的 。 

一 一 我 爱 生 活 

楼 主 ， 我 虽然 不 是 学 数字 信和 号 处 理 出 身 ， 但 是 你 的 讲解 太 伟 大 了 。 我 真 
的 手 不 释 卷 啊 ! 快 点 刷新 吧 。 

一 一 中 飞人 1234 

越 牛 的 人 讲 的 东西 越 通 俗 易 懂 。 

时 光 机 器 007 

写 得 真 好 ! 通俗 易 懂 ， 比 较 形 象 化 。 

ksyjk 

属于 深入 学 习 的 人 才能 写 出 这 种 文字 ， 现 在 太 需 要 这 样 的 人 才 了， 更 希 
望 看 到 的 朋友 也 别 顾 着 只 叫好 ， 大 家 以 大 侠 为 榜样 ， 在 各 目的 领域 中 都 
能 做 到 深入 浅 出 ， 与 己 与 人 都 是 一 笔 财富 ! 


yucheng xiao 






































